質問

次の問題に対する最良のアプローチについてのご意見を深めます。私は、本質的に似ている車の分類リストの例を使用して、アイデアを与えるために使用しています。

問題:指定されたテキストからデータタプルを抽出します。

ここにデータの特徴があります。

  1. テキストの語彙(単語)は、特定のドメインに限定されます。せいぜい100〜200語を想定しましょう。

  2. 解析する必要があるテキストは、以下に示す車の広告データのような見出しです。したがって、各レコードは1つのタプル(行)に対応します。

  3. 場合によっては、一部の属性が欠落している場合があります。したがって、たとえば、年以下の生データの行#5には欠落しています。

  4. いくつかの言葉が一緒になります(bigrams)。 「ローマイル」のように。

  5. 利用可能な履歴データ= 10,000レコード

  6. 着信新しいデータボリューム= 1000-1500レコード /週

予想される出力は、(年、make、モデル、機能)の形式でなければなりません。したがって、出力は次のように見えます

1->(2009、Ford、Fusion、SE)
2->(1997、フォード、おうし座、ワゴン)
3->(2000、三菱、ミラージュ、デ)
4->(2007、Ford、Expedition、El Limited)
5->(、ホンダ、アコード、ex)
....
....

生の見出しデータ:


1-> 2009 Ford Fusion SE -$ 7000
2-> 1997 Ford Taurus Wagon -$ 800(San Jose East)
3-> '00三菱mirage de -$ 2499(サラトガ)写真
4-> 2007 Ford Expedition EL Limited -$ 7800(x)
5->ホンダアコードEXローマイル - $ 2800(ダブリン /プレザントン /リバモア)写真
6-> 2004 Honda Odassey LX 68Kマイル - $ 10800(Danville / San Ramon)
7-> 93リンカーンマーク-2000ドル(オークランドイースト)写真
8-> ####### 2006 Lexus GS 430 Black on Black 114kmi #######- $ 19700(San Rafael)写真
9-> 2004 Audi A4 1.8T FWD -$ 8900(サクラメント)写真
10 - > ####### 2003 GMC C2500 HD EX -CAB 6.0 V8 EFI White 4x4 #######- $ 10575(San Rafael)写真
11-> 1990トヨタカローラはよく走ります!ガスセーバー! 5スピードクリーン! Reg 2011 Obo -$ 1600(Hayward / Castro Valley)Pic Img
12->ホンダアコードEx 2000- $ 4900(ダブリン /プレザントン /リバモア)写真
13-> 2009 Chevy Silverado Lt Crew Cab- $ 23900(ダブリン /プレザントン /リバモア)写真
14-> 2010 Acura TSX -V6 -Tech- $ 29900(ダブリン /プレザントン /リバモア)写真
15-> 2003日産アルティマ - $ 1830(SF)写真


可能な選択:

  1. 機械学習テキスト分類器(ナイーブベイズなど)
  2. 正規表現

私が理解しようとしているのは、regexが仕事に複雑すぎて、テキスト分類器が過剰になっているかどうかです。

選択がテキスト分類器を使用することである場合、実装が最も簡単だとどう思いますか。

よろしくお願いします。

役に立ちましたか?

解決

これはよく研究されている問題です 情報抽出. 。やりたいことをするのは簡単ではなく、音を立てるほど簡単ではありません(つまり、機械学習は過剰ではありません)。いくつかの手法があります。研究分野の概要を読む必要があります。

他のヒント

小切手 これ 抽出ルールを書くためのIEライブラリ<問題に最適だと思います。また、作成方法もあります 高速辞書マッチング.

私はそうだと思います ArxまたはPhoebus 既に注釈付きデータと各フィールドに関連付けられた単語のリストがある場合、システムはお客様のニーズに合っている場合があります。彼らのアプローチは、情報抽出と情報統合の組み合わせです。

いくつかの優れたエンティティ認識ライブラリがあります。見てみましたか apache opennlp?

車の特定のモデルを探しているユーザーとして、タスクは簡単です。 regexpで何を探すべきかを知っているので、ほとんどのフォードレンジャーを分類できると確信しています。

あなたの最善の策は、タイプの文字列 - >たぶんタプルで各車モデルの関数を書くことだと思います。次に、これらすべてを各入力で実行し、それらの入力を捨てて、タプルがゼロまたは多すぎるようになります。

これには、Amazon Mechanical Turkのようなツールを使用する必要があります。人間のマイクロタスク。もう1つの選択肢は、データ入力フリーランサーを使用することです。アップワークは見るのに最適な場所です。優れた品質の結果を得ることができ、コストはそれぞれ非常にリーズナブルです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top