宿情報retrival/テキストマイニングプリケーションやライブラリ

https://stackoverflow.com/questions/1465331

13-09-2019
|

質問

を抽出して各種の情報からe-メール-フレンタカー、ホテルです。この方法は、本体のメールは、通常、HTML形式のもののいのでテキストやまの情報を使用してPDF/Word/RTF取り付けます。その後、適正規表現ものである複数ステップ)を得るために情報を提供する表形式で表示(のようなものと考えることができフライトテーブルのホテルのテーブルなど）。知っているものの、構文解析HTML、web scraping.

現在使っていQL2のWebQLエンジン、または置き換えることから業務上の理由です。できます他のエンジン?でない場合はLinuxが可能なJava(Java APIのいのだが、Webサービスソリューションしていくでしょう。でも支えるものでなければ正規表現のためのテキストの抽出となのHTML構造です。

解決 3

ただ更新したい - 私たちの最終的な決定は、グルーヴィーするで解析を実施し、一部を追加しました必要な機能（テキストにHTML、テキスト、きれいな空白などへのPDF）のいずれかのJavaでそれを実装することで、OTサードパーティのライブラリに依存することもできます。

他のヒント

ておくことをお勧めします見R.豊富な数のテキストマイニングパッケージ: というものが自然言語処理ビュー.特に、 tm パッケージです。ここでは一部の関連リンク:

紙のパッケージには、雑誌の統計データ http://www.jstatsoft.org/v25/i05/paper.の良事例の分析をR-devel メーリングリストhttps://stat.ethz.ch/pipermail/r-devel/)ニュースグループからのメッセー2006年
パッケージのホームページ: http://cran.r-project.org/web/packages/tm/index.html
の導入ヴィネット: http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

また、R数多くのツールを構文解析HTMLまたはXML.していこの問題の使用例に RCurl や XML パッケージ.

編集： ができ統合R Javaと日本総合研究所.とても広く使用パッケージには、多くの例です。またこれらに関する質問.

してい:

LingPipe - LingPipeトのJavaライブラリのための言語分析の人気が高い国は中国です。
を導入可能 - Apache可能で高機能-全文検索エンジンの図書全Java.

私は、同様の目的のためにFlexとC ++で作られたカスタムパーサーを使用します。私はあなたがJavaでパーサジェネレータを見て（JavaCCの.jjファイル）<のhref = "http://www.engr.mun.ca/~theo/JavaCC-FAQ/javacc-faq-ie.htmを取ることをお勧めしたいですNutchのの "REL =" nofollowをnoreferrer "> JavaCCの-FAQは、それがこの方法ありません。（NutchAnalysis.jj）

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow