我需要从一堆.csv文件中提取文档编号,日期和发票金额之类的字段,我认为这被称为“非结构化文本”。我有一些标记的输入文件,并将使用NLTK和Python设计数据提取算法。

对于第一轮分类,我计划使用分类器使用TF -IDF加权来识别文档类型 - 有多个使用相同格式的文件。

在这一点上,鉴于它是文档的X类型,我需要从文档中提取字段。例如可能的功能? (我在这里没有培训,忍受我。)

有更好的方法可以做第二部分吗?我认为第一部分应该没事,但是我不确定第二部分是否有效,或者我什至真正理解问题。我的总体方法如何?我是这类事情的新手,这是我能想到的最好的。

有帮助吗?

解决方案

我不确定使用分类器是否是解决此问题的最佳方法。如果是可以轻松使用Regex提取的东西,那么这是做到这一点的最佳方法。但是,如果您想使用分类器,请问以下两个问题。

一,未标记的数据是什么样的,您可以从中设计出好的功能吗?根据您设计的特征向量的种类,分类任务的复杂性可能从非常简单到不可能。 (通常无法在输入变量的特定线性组合提供特定的线性组合时,通常无法求解XOR。

两个,标记的数据是什么样的?它是整个数据集的代表,还是仅包含非常特定的格式?如果是前者,则您的分类器在标记数据中未表示的文件上无法正常工作。

如果您只想先测试运行分类器,则可以解决比正则化训练样本更多的功能的问题。正则化强迫分类器的训练算法接受最简单的解决方案(想想OCCAM的剃须刀)。

Python中几乎所有与机器学习相关的软件包都可以使用您可以使用的正规化选项,因此请享受。

许可以下: CC-BY-SA归因
scroll top