質問

を抽出して各種の情報からe-メール-フレンタカー、ホテルです。この方法は、本体のメールは、通常、HTML形式のもののいのでテキストやまの情報を使用してPDF/Word/RTF取り付けます。その後、適正規表現ものである複数ステップ)を得るために情報を提供する表形式で表示(のようなものと考えることができフライトテーブルのホテルのテーブルなど)。知っているものの、構文解析HTML、web scraping.

現在使っていQL2のWebQLエンジン、または置き換えることから業務上の理由です。できます他のエンジン?でない場合はLinuxが可能なJava(Java APIのいのだが、Webサービスソリューションしていくでしょう。でも支えるものでなければ正規表現のためのテキストの抽出となのHTML構造です。

役に立ちましたか?

解決 3

ただ更新したい - 私たちの最終的な決定は、グルーヴィーするで解析を実施し、一部を追加しました必要な機能(テキストにHTML、テキスト、きれいな空白などへのPDF)のいずれかのJavaでそれを実装することで、OTサードパーティのライブラリに依存することもできます。

他のヒント

ておくことをお勧めします 見R.豊富な数のテキストマイニングパッケージ: というものが自然言語処理ビュー.特に、 tm パッケージです。ここでは一部の関連リンク:

また、R数多くのツールを構文解析HTMLまたはXML.してい この問題の使用例に RCurlXML パッケージ.

編集: ができ 統合R Javaと日本総合研究所.とても広く使用パッケージには、多くの例です。 またこれらに関する質問.

してい:

  • LingPipe - LingPipeトのJavaライブラリのための言語分析の人気が高い国は中国です。
  • を導入可能 - Apache可能で高機能-全文検索エンジンの図書全Java.

私は、同様の目的のためにFlexとC ++で作られたカスタムパーサーを使用します。私はあなたがJavaでパーサジェネレータを見て(JavaCCの.jjファイル)<のhref = "http://www.engr.mun.ca/~theo/JavaCC-FAQ/javacc-faq-ie.htmを取ることをお勧めしたいですNutchのの "REL =" nofollowをnoreferrer "> JavaCCの-FAQは、それがこの方法ありません。 (NutchAnalysis.jj)

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top