文档分类问题

https://datascience.stackexchange.com/questions/10880

16-10-2019
|

题

我一般对数据科学非常陌生，并承担了一个巨大的挑战。

我的组织有很多文档，这些文档都按文档类型进行了排序（不是二进制格式，而是基于内容的主观分配类型，例如“合同”，“收据”，“语句”等。

一般而言，这些类型的分配是在收到文件后完成的，这并不是一个挑战，尽管我们想删除此分类的人类元素。同样，有时候我们想识别特殊属性，例如“说明使用使用”。到目前为止，这完全是通过人类干预来完成的。

我是Python程序员，并且一直在寻找从这些文档中提取文本的工具（所有PDF，all ash ast asl ast ass of ocr'ed and Able Able -able Analysis）。研究使我研究了NLTK，Scikit-Learn和Gensim等标准库。但是我正在努力确定将新收到的文档分类的最佳方法。

我的研究正在引导我走过几条途径...一个人是基于当前corpa的抽样创建TF-IDF矢量模型，然后为即将到来的文档的语料库创建模型，并对现有模型进行幼稚的贝叶斯分析，以识别哪个模型类别传入文档属于最高概率。问题1：对吗？如果是这样，问题2成为实现这一目标的正确程序化方法是什么？

我根本提出这个问题的原因是因为我发现的大多数教程似乎都倾向于对文本公司的二进制辨别（正面vs否定，垃圾邮件与火腿）。我确实看到Scikit-Learn有有关多标签分类的信息，但我不确定我的道路沿着它走了。 “分类”一词在文档分析中似乎具有不同的含义。

如果这个问题太模糊了，请告诉我，我可以对其进行编辑以更具体。

解决方案

除了OCR部分，正确的捆绑包将是 pandas 和 sklearn.

你可以检查一下 ipython笔记本使用TFIDFECTORIZER和SVC分类器。

这个分类器可以制作一vs-One或One-vs-the-Rest 多类预测，如果您使用 predict_proba 方法而不是 predict, ，您将拥有每个类别的信心水平。

如果您正在寻找表演，并且不需要预测信心水平，则应使用 LinearSVC 这更快。

Sklearn有很好的文献记载，您会找到文本分类所需的一切。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange