抽出の純粋なコンテンツ/テキストからHTMLページを除いたナビゲーションやクロムコンテンツ

StackOverflow https://stackoverflow.com/questions/1696914

質問

私のクローニュースサイトおよび抽出したいニュースタイトル、抄録(第項の規定)など

差し込み、webkitパーザコードを簡単にナビゲートしています。をナビゲーションやその他のニュースコンテンツに乗ってくるようになったからテキスト版の記事(マイナスのhtmlタグ、webkitためのapi提供が生じることがありますその差分アルゴリズムの比較様々な条のテキストから同じサイトにこれに類似されているテキスト。それは私にコンテンツ-マイナスの共通ナビゲーションなど。

そのアプローチは私もかなり迷惑に私の最終す。この結果に誤りのニュースの抽象が抽出された。エラー率が5 10条(50%です。エラーとして

できま

  1. ると考えられた代替戦略を抽出の純粋なコンテンツ、

  2. う/学習できる自然言語rocessing助けを抽出す正しい抄録からこれらの記事?

  3. いアプローチ上記の問題なのか。.

  4. この研究論文集"は同一者でもいいですか?.

について

Ankurグプタ

役に立ちましたか?

解決

答(1),い。っていないことです。その他に答えるよう、お手伝いいたします。

答(2),自動作成の講演が開発した。通常、称して"文選定に入ってからの典型的なアプローチとはめを選ぶだけの全文が書かれています。

答(3)基本方を講演概要集から機械学習とする。

  1. をコーパスの既存の講演概要集
  2. 注釈を付ける講演概要集select polling engineポーリングエンジンを選択す。例えば、思い思いるかどうかを示す文ごとに選ばれた理由はしません).
  3. 車分級機との何らかのコーパスを使用し、この分類の文章に。。。

お気に入りの参考に機械学習にはトム-ミッチェルの 機械学習.しているとのことですさまざまなかたちで実施手順(3).

答(4),私が論文での指導教員のでは昨年、わかりませんが造形、野暮ったすぎやしませんか専門家の分野です。

他のヒント

あなたはGoogle Codeの上で私の boilerpipe のプロジェクトを見ていると、ページ上でそれをテストかもしれませんお好みのGoogleのAppEngineの(そこからリンクされている)上のライブのWebアプリを使用します。

私はこの領域を研究していますし、HTMLページからコンテンツ抽出/定型除去に関するいくつかの論文を書かれています。 「定型検出が浅いテキスト機能を使用して」とVideoLectures.netに対応したビデオを見て、たとえば参照してください。紙はあなたにこの分野での最先端技術の良い概観を与えるべきでます。

乾杯、

クリスチャン

私はそれがどのように動作するか知っているが、可読性をチェックアウトしないでください。それはあなたが何を望むかを正確に行います。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top