の現状はどうなっているのHTMLコンテンツを抽出?

https://stackoverflow.com/questions/1962389

21-09-2019
|

質問

あのコミュニケーションも楽しみの学術HTMLコンテントの抽出などのグプタ&カイザー(2005) を抽出すコンテンツからのアクセスウェブページ, り、持ち直しの動きがみられたわが関心ここでは、例えば、一つ, 二つの, は、三, がんについて明らかになどの実践に反映さ。うの?

ポインタを特定し、オープンソース)の実装や学術調査の実装のようなこともやってみたいです。

Postscriptの:正確などを調査いた後する論文(出版、未発表のもとの協議の両方の基準からの学術文献に、既存の実装と性に与えた影響を学術的に分析失敗の実装からの視点を基準とします。、、、、のメーリングリストにうんです。

Postscriptの 明らかにするものと、ピーター Rowellの答えを、受け入れていき、この問題への二subquestions:(i)の解決問題の清掃非conformant HTML、美しいスープにおすすめ液(ii)未解決の問題または分離cruft（主にサイトを追加定型、ダイアン-シューア)から肉のcontentthatのではないというページが興味深い事実を見る。のは、新しい答えが必要にcruftやわらかいお肉peoblemを明確にした。

解決

抽出は人によって異なるものを意味することができます。それはそこにマングルされたHTMLのすべてを扱うことができるように一つのことだし、美しいスープは、この部門の明確な勝者です。しかし、BSは嫌なもの、何の肉が何であるかを教えてくれません。

計算言語学者の視点からのコンテンツの抽出を検討する際に

物事は異なる（そして醜い）に見えます。私だけに興味があるページを分析する場合、の特定のコンテンツのページなど、マイナスナビゲーション/広告のすべて/の。嫌なもの。そして、あなたは面白いものを行うために始めることができない - などの同時出現解析、フレーズの発見、加重属性ベクトルの生成、 - あなたは嫌なものを取り除く得ているまで、

。 OPで参照される最初の論文では、これは、彼らが達成しようとしていたものだったことを示している - 全体の構造を決定し、サイトを分析し、そのアウトと出来上がりを引きます！あなただけの肉を持っている - しかし、彼らは、彼らが考えていたよりも、それは困難でした。私は初期の検索egineの男だったのに対し、彼らは、改善されたアクセシビリティ角度から問題に近づいたが、我々の両方が同じ結論に達した。

のは肉から分離嫌なものは難しいです。を慎重にセマンティックマークアップを適用することなく、それは、嫌なものを除去しても、一度（あなたの質問の行間を読むため）の非常にの記事の「著者の意図」を決定することは困難。 citeseerのようなサイトのうち、肉を取得するの大きさの2つのまたは3オーダーのランダムなWebコンテンツを扱うよりも簡単。あなたは長い文書を扱っている場合は、

ところで、あなたは特にマルティによって行われた仕事に興味があるかもしれませんハーストする（UCバークレーで今教授）。彼女は博士論文のと大きな文書でサブトピックの発見をしている上、他の論文が与えました私の小さい文書に似た何かを洞察の多く（、意外にも、対処することがより困難になることができます）。あなたは嫌なものを取り除く後しかし、あなたはこれだけを行うことができます。

<時間>

は興味があるかもしれない少数の人々のために、ここでいくつかの裏話だ（おそらくオフトピックが、私は気分のようなもので今夜だ）：

80年代、90年代には、当社の顧客は、主にその目を自分の予算よりも大きく、その夢ディズニーランドルック単調に行われた政府機関でした。彼らは上の手を取得し、何らかの形で（の巨大な手の波）は、ドキュメントの「意味」を抽出します特効薬技術を探しに行ったことができるすべてを収集しました。右。私たちは、この奇妙な小さな会社は1986年に「コンテンツ類似性検索」をやっていたので、彼らは我々は彼らにそれらをびびるデモ（実、偽造ではない）のカップルを与えた私たちを見つけます。

私たちはすでに知っていたことの一つは、（と、それは彼らが私たちを信じるために長い時間がかかった）すべてのコレクションが異なっており、それはそれらの違いに対処するための独自の特別なスキャナの必要があることでした。あなたがやっているすべてはまっすぐ新聞の物語をむしゃむしゃされている場合、生活は非常に簡単です。見出しは、主にあなたの何か面白いを伝え、そして物語はピラミッドのスタイルで書かれている - 最初の段落または2には、/の肉を持っているし、次のパラグラフは、その上で展開する/何を/。私が言ったように、これは簡単なものです。

どのように雑誌の記事についてはどうですか？ああ、神様は、私が始めた得ることはありません！タイトルはほとんど常に無意味であり、構造は、1つのMAGから次へと変化し、さらにはMAGの一つのセクションから次へ。有線のコピーと大西洋月間のコピーをピックアップ。主要な記事を見て、把握してみてください。の意味のの記事が何であるかについての1つの段落の要約。今、プログラムは同じことを実現する方法を説明してみてください。規則の同じセットは、すべての記事全体に適用されますか？同じからでも記事マガジン？いいえ、そうではない。

申し訳ありませんが、この上の意地の悪い人が、この問題のような音があるにの純粋にハードの

は不思議なことに、それは（検索エンジンの視点から）であるとして成功したとして、Googleのビーイングのための大きな理由は、彼らは別のサイトからのリンクを囲むの中の単語の上に体重の多くを配置していることです。そのリンクテキストは、あなたが検索しているとき、正確に何をしたい、とのリンクですサイト/ページのミニ要約のようなものをの人間のによって行わ表します。そして、それは情報のほぼすべてのジャンル/レイアウトスタイル全体に動作します。これは、積極的に華麗な洞察力だと私はそれを自分で持っていた希望します。 は何のリンクの最後の夜のモスクワテレビ番組表から、彼らが撮影していたいくつかのランダムテレタイプメッセージに、あるいはエジプトの新聞の一部ひどくOCR'dバージョンにはなかったので、しかし、それはすべての良い私の顧客を行っているではないでしょうます。

/ミニ暴言-とトリップダウンメモリーレーン

他のヒント

一言で言うならば"boilerpipe.

のためのニュースをドメインに、代表者は、コルパス、または98%/99%の抽出精度（平均値/中央値)

デモ: http://boilerpipe-web.appspot.com/
コード: http://code.google.com/p/boilerpipe/
表示: http://videolectures.net/wsdm2010_kohlschutter_bdu/
データセットとスライド: http://www.l3s.de/~kohlschuetter/定型/
博士論文: http://www.kohlschutter.com/pdf/Dissertation-Kohlschuetter.pdf

もなかなかの言語から独立した(現在、勉強することでネパールがあります。

免責事項:私の作品です。

あなたは boilerpipe を見たことがありますか？それは同様の問題に言及したが見つかります。

い http://www.keyvan.net/2010/08/php-readability/

昨年から移植Arc90の読みやすさでのご利用につィプロジェクト.しているといわれる一年と読みやすさが改善しく— コクリスDaryののチームArc90.

の一環として、更新のフルテキストサービスを開始していますの移植。最近のバージョン(1.6.2)PHPのコードはオンライン

誰でもない、読みやすさ作成したとして使用ブラウザのアドオン（bookmarklet).一つのクリックしま変換ウェブページからも読みやすいとみを採用。 Apple 最近ではサファリます。

また手軽なコンテンツ抽出くさんのご応募お待ちしていポートでPHP。

同様の記事抽出タスクを実行可能ないくつかのオープンソースのツールがあります。 https://github.com/jiminoc/gooseするによってオープンソースがあったGravity.com

これは、wikiに情報だけでなく、あなたが見ることができますソースを持っています。様々な記事から抽出されたテキストを表示するユニットテストの数十があります。

私は、マークアップ情報源の多様性から、非常に困難なテキスト抽出を関与その多くが情報検索プロジェクト、さまざまな上、年間を通してピーター・ローウェルの下で働いてきています。

現在、私は彼らのRSSパイプ真空、地方、地域、国内および国際的なニュース記事の膨大な量アップを含め、Googleなどの情報源を「消防ホース」からの知識抽出に焦点を当てています。多くの場合、タイトルが豊かで有意義ですが、実際の記事は無意味段落であるWebサイトへのトラフィックを描画するために使用される唯一の「フック」です。これは、ブーストトラフィックの評価に設計された「逆にスパム」の一種であるように思われます。

ランク記事にも、記事の長さの最も簡単なメトリックを使用すると、マークアップからコンテンツを抽出できるようにする必要があります。これらの日ブレイクグーグルの特性大ボリュームと類似したソースに適用されたとき、ほとんどのオープンソースは、このような美しいスープなどのパッケージを解析し、Webコンテンツを支配エキゾチックなマークアップとスクリプト。私は、採掘された記事の30％以上が経験則として、これらのパッケージを壊すことを発見しました。これは、私たちは、マークアップやスクリプトからの生のテキストを分離することは非常に低レベルの、インテリジェントな、文字ベースのパーサーの開発に再び集中させています。より細かは、よりインテリジェントな（と手作り）あなたのツールがなければなりませんあなたのパース（すなわち、分割コンテンツのを）きめ細かいです。 Webオーサリングをモーフィングし続け、新しいスクリプトの開発と変更が近づくと、マークアップ、および言語拡張として、物事をより面白くするためには、移動するターゲットを持っています。これは、「シュリンクラップ」アプリケーションとは対照的に、サービスベースの情報配信を好む傾向がある。

年間の背中を見ると、それは、ドメインやコンテンツの特定のようだおそらくので、そのような抽出の低レベルの力学（すなわち「旧の実践」あなたはを参照してください）について書かれた非常にいくつかの学術論文となっているように思われます。

美しいPythonで書かれた強力なHTMLパーサーですのスープます。

これは、優雅に悪いマークアップでHTMLを処理し、また、Pythonライブラリとしてよく設計され、反復および検索のための発電機をサポートする、子へのアクセス（例えば、アクセス<foo><bar/></foo>' usingdoc.foo.bar`）とシームレスにUnicodeの表記に点在しています。

あなたが頻繁にJavaScriptを使用していることのページから抽出コンテンツに出ている場合は、セレンリモートコントロールする仕事をすることができます。それはちょうどテスト以上で動作します。これを行うための主な欠点は、あなたがより多くのリソースを使用して終わるだろうということです。利点は、あなたが金持ちページ/アプリケーションからより正確なデータフィードを取得しますです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow