Python-このデータマイニングアプローチは機能しますか？それは良い考えですか？

https://datascience.stackexchange.com/questions/6301

python
data

16-10-2019
|

質問

「非構造化されたテキスト」と呼ばれると思われる.csvファイルの束から、ドキュメント番号、日付、請求書の金額などのフィールドを抽出する必要があります。入力ファイルというラベルが付けられたものがあり、NLTKとPythonを使用してデータ抽出アルゴリズムを設計します。

分類の最初のラウンドでは、TF -IDFの重み付けを分類器で使用してドキュメントタイプを識別することを計画しています。同じ形式を使用する複数のファイルがあります。

この時点で、ドキュメントのタイプであることを考えると、ドキュメントからフィールドを抽出する方法が必要です。たとえば、「最も一般的な数字」や「コンマのある最大数」などの機能を使用して請求書を見つけることを考えましたが、請求書の金額は任意の数値をできるので、サンプルサイズは数よりも小さくなると考えています。可能な機能？（私はここにトレーニングがありません、私と一緒に我慢してください。）

2番目の部分を行うより良い方法はありますか？最初の部分は大丈夫だと思いますが、2番目の部分が機能するか、問題を本当に理解しているかどうかはわかりません。一般的に私のアプローチはどうですか？私はこの種のことに慣れていないので、これが私が思いつくことができる最高のものでした。

解決

分類子を使用することがこの問題にアプローチする最良の方法であるかどうかはわかりません。 Regexを使用して簡単に抽出できるものである場合、それが最良の方法です。ただし、分類子を使用する場合は、自問する必要がある2つの質問を次に示します。

1つは、無効なデータはどのように見えますか？そこから優れた機能を設計できますか？設計する機能ベクトルの種類に応じて、分類タスクの複雑さは非常に簡単なものから不可能までの範囲です。（Perceptronは、入力変数の特定の線形結合を提供する場合を除き、通常XORを解くことはできません）。

2つ目は、ラベル付けされたデータはどのように見えますか？データセット全体を代表しているのでしょうか、それとも非常に特定の種類の形式のみを含んでいますか？前者の場合、分類器は、ラベル付きデータに表されないファイルでうまく機能しません。

最初に分類子を実行するだけの場合、正規化を使用してサンプルよりも多くの機能を持つという問題を解決できます。正則化により、分類器のトレーニングアルゴリズムは、可能な限り単純なソリューションを受け入れるように強制されます（Occam's Razorを考えてください）。

Pythonのほとんどすべての機械学習関連パッケージには、使用できる正規化オプションがありますので、お楽しみください。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange