文書分類の問題

https://datascience.stackexchange.com/questions/10880

16-10-2019
|

質問

私は一般的にデータサイエンスに非常に慣れておらず、大きな挑戦を任されています。

私の組織には、すべてのドキュメントタイプ（バイナリ形式ではなく、コンテンツ、「契約」、「領収書」、「ステートメント」などに基づいて主観的に割り当てられたタイプ）に並べ替えられた多くのドキュメントがあります。

一般的に言えば、これらのタイプの割り当ては、文書の受領時に行われ、挑戦ではありませんが、この分類の人間の要素を削除したいと思います。同様に、「使用を示す声明」など、特定したい特別な属性がある場合があります。これまでのところ、これは完全に人間の介入によって行われます。

私はPythonプログラマーであり、これらのドキュメントからテキストを抽出するツール（すべてのPDF、すべてのOCR'edおよび検索可能）を検討し、分析を実行しています。研究により、NLTK、Scikit-Learn、Gensimなどの標準的なライブラリを調べることができました。しかし、私は新たに受け取った文書を分類するための最良の方法論を特定するのに苦労しています。

私の研究は私をいくつかのパスを導きます... 1つは、現在のコーパのサンプリングに基づいてTF-IDFベクターモデルを作成し、次に着信ドキュメントのコーパスのモデルを作成し、既存のモデルに対して素朴なベイズ分析を行い、どのカテゴリ着信ドキュメントは、最高の確率に基づいて属します。質問1：これは正しいですか？もしそうなら、質問2がこれを達成するための正しいプログラム方法論は何ですか？

私がこれをまったく持ち出す理由は、私が見つけたほとんどのチュートリアルは、テキストコーパ（ポジティブvsネガティブ、スパム対ハム）のビナリーの識別力に傾いているように見えるためです。 Scikit-Learnがマルチラベル分類に関する情報を持っているのを見ましたが、それを使って正しい道を進んでいるかどうかはわかりません。「分類」という言葉は、ドキュメント分析において私が望んでいるものとは異なる意味を持っているようです。

この質問があいまいすぎる場合は、私に知らせてください、そして私はそれをより具体的に編集することができます。

解決

OCRの部分を除いて、右のバンドルは pandas と sklearn.

これを確認できます IPythonノートブック TFIDFVectorizerとSVC分類器を使用します。

この分類子は作ることができます 1-vs-oneまたは1-vs-the-rest マルチクラス予測、および使用する場合 predict_proba の代わりに predict, 、各カテゴリの信頼レベルがあります。

パフォーマンスを探していて、予測信頼レベルが必要ない場合は、使用する必要があります LinearSVC これははるかに速いです。

Sklearnは非常によく文書化されており、テキスト分類に必要なものはすべて見つかります。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange