どのようなアルゴリズムは、私は、Webページ上のコンテンツを識別するために使用することができます

https://stackoverflow.com/questions/1999228

22-09-2019
|

質問

私はおそらくほとんどのコンテンツが含まれているブラウザ（そのDOM要素の位置、すなわち、両方の私にはアクセス可能です）、私はブロック要素（またはこれらの要素のソートされたリスト）を見つけたい、でWebページをロードしています（テキストの連続したブロックのように）。目標は、メニュー、ヘッダー、フッター、およびなどのようなものを除外することです。

解決

VIPS：ビジョンベースのページ

これは私の個人的な好みですセグメンテーションアルゴリズムの

他のヒント

あなたは、Webページを解析する必要がある場合は、

まず、私はそれを変換するために HTMLAgilityPack に使用しますXML。それはすべてを高速になりますし、あなたを可能にする、BODYに直接移動するための単純なXPathを使用します。

その後、あなたは（あなたは敏捷性パックから、リスト内のすべてのDIV要素を取得することができます）、すべてのdiv上で実行すると、あなたが好きな取得する必要があります。

HTMLはすなわち、HTMLページを介して表示されたテキストへのマークアップの比率は何で、どのように「うるさい」の分析に基づいてこれを実行するための簡単な技術は、あります。抽出するために簡単な方法任意のHTML を説明するためにいくつかのPythonコードを与え、このテックスについて説明します。

から有用なテキスト

Cfを。また、 HTML :: ContentExtractorするのPerlこのアイデアを実装モジュール。あなたがbeautifulsoupを使用して、これを使用したい場合は、最初にHTMLをきれいにする意味をなさないと思います。

私は、 WebコンテンツクリーニングするにビタミンBaisaの論文をお勧めします私は彼があまりにもいくつかのコードを持っていると思うが、私はそれのためにリンクを見つけることができません。 A 議論自然言語処理LingPipeブログに非常に同じ問題の。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow