ヘルプ：テキストからデータタプルを抽出する…正規表現または機械学習？

https://stackoverflow.com/questions/6323740

27-10-2019
|

質問

次の問題に対する最良のアプローチについてのご意見を深めます。私は、本質的に似ている車の分類リストの例を使用して、アイデアを与えるために使用しています。

問題：指定されたテキストからデータタプルを抽出します。

ここにデータの特徴があります。

テキストの語彙（単語）は、特定のドメインに限定されます。せいぜい100〜200語を想定しましょう。
解析する必要があるテキストは、以下に示す車の広告データのような見出しです。したがって、各レコードは1つのタプル（行）に対応します。
場合によっては、一部の属性が欠落している場合があります。したがって、たとえば、年以下の生データの行＃5には欠落しています。
いくつかの言葉が一緒になります（bigrams）。「ローマイル」のように。
利用可能な履歴データ= 10,000レコード
着信新しいデータボリューム= 1000-1500レコード /週

予想される出力は、（年、make、モデル、機能）の形式でなければなりません。したがって、出力は次のように見えます

1->（2009、Ford、Fusion、SE）
2->（1997、フォード、おうし座、ワゴン）
3->（2000、三菱、ミラージュ、デ）
4->（2007、Ford、Expedition、El Limited）
5->（、ホンダ、アコード、ex）
....
....

生の見出しデータ：

1-> 2009 Ford Fusion SE -$ 7000
2-> 1997 Ford Taurus Wagon -$ 800（San Jose East）
3-> '00三菱mirage de -$ 2499（サラトガ）写真
4-> 2007 Ford Expedition EL Limited -$ 7800（x）
5->ホンダアコードEXローマイル - $ 2800（ダブリン /プレザントン /リバモア）写真
6-> 2004 Honda Odassey LX 68Kマイル - $ 10800（Danville / San Ramon）
7-> 93リンカーンマーク-2000ドル（オークランドイースト）写真
8-> ####### 2006 Lexus GS 430 Black on Black 114kmi #######- $ 19700（San Rafael）写真
9-> 2004 Audi A4 1.8T FWD -$ 8900（サクラメント）写真
10 - > ####### 2003 GMC C2500 HD EX -CAB 6.0 V8 EFI White 4x4 #######- $ 10575（San Rafael）写真
11-> 1990トヨタカローラはよく走ります！ガスセーバー！ 5スピードクリーン！ Reg 2011 Obo -$ 1600（Hayward / Castro Valley）Pic Img
12->ホンダアコードEx 2000- $ 4900（ダブリン /プレザントン /リバモア）写真
13-> 2009 Chevy Silverado Lt Crew Cab- $ 23900（ダブリン /プレザントン /リバモア）写真
14-> 2010 Acura TSX -V6 -Tech- $ 29900（ダブリン /プレザントン /リバモア）写真
15-> 2003日産アルティマ - $ 1830（SF）写真

可能な選択：

機械学習テキスト分類器（ナイーブベイズなど）
正規表現

私が理解しようとしているのは、regexが仕事に複雑すぎて、テキスト分類器が過剰になっているかどうかです。

選択がテキスト分類器を使用することである場合、実装が最も簡単だとどう思いますか。

よろしくお願いします。

解決

これはよく研究されている問題です情報抽出. 。やりたいことをするのは簡単ではなく、音を立てるほど簡単ではありません（つまり、機械学習は過剰ではありません）。いくつかの手法があります。研究分野の概要を読む必要があります。

他のヒント

小切手これ抽出ルールを書くためのIEライブラリ<問題に最適だと思います。また、作成方法もあります高速辞書マッチング.

私はそうだと思います ArxまたはPhoebus 既に注釈付きデータと各フィールドに関連付けられた単語のリストがある場合、システムはお客様のニーズに合っている場合があります。彼らのアプローチは、情報抽出と情報統合の組み合わせです。

いくつかの優れたエンティティ認識ライブラリがあります。見てみましたか apache opennlp?

車の特定のモデルを探しているユーザーとして、タスクは簡単です。 regexpで何を探すべきかを知っているので、ほとんどのフォードレンジャーを分類できると確信しています。

あなたの最善の策は、タイプの文字列 - >たぶんタプルで各車モデルの関数を書くことだと思います。次に、これらすべてを各入力で実行し、それらの入力を捨てて、タプルがゼロまたは多すぎるようになります。

これには、Amazon Mechanical Turkのようなツールを使用する必要があります。人間のマイクロタスク。もう1つの選択肢は、データ入力フリーランサーを使用することです。アップワークは見るのに最適な場所です。優れた品質の結果を得ることができ、コストはそれぞれ非常にリーズナブルです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow