どのようなアルゴリズムは、私は、Webページ上のコンテンツを識別するために使用することができます

StackOverflow https://stackoverflow.com/questions/1999228

質問

私はおそらくほとんどのコンテンツが含まれているブラウザ(そのDOM要素の位置、すなわち、両方の私にはアクセス可能です)、私はブロック要素(またはこれらの要素のソートされたリスト)を見つけたい、でWebページをロードしています(テキストの連続したブロックのように)。目標は、メニュー、ヘッダー、フッター、およびなどのようなものを除外することです。

他のヒント

あなたは、Webページを解析する必要がある場合は、

まず、私はそれを変換するために HTMLAgilityPack に使用しますXML。それはすべてを高速になりますし、あなたを可能にする、BODYに直接移動するための単純なXPathを使用します。

その後、あなたは(あなたは敏捷性パックから、リスト内のすべてのDIV要素を取得することができます)、すべてのdiv上で実行すると、あなたが好きな取得する必要があります。

HTMLはすなわち、HTMLページを介して表示されたテキストへのマークアップの比率は何で、どのように「うるさい」の分析に基づいてこれを実行するための簡単な技術は、あります。抽出するために簡単な方法任意のHTML を説明するためにいくつかのPythonコードを与え、このテックスについて説明します。

から有用なテキスト

Cfを。また、 HTML :: ContentExtractorするのPerlこのアイデアを実装モジュール。あなたがbeautifulsoupを使用して、これを使用したい場合は、最初にHTMLをきれいにする意味をなさないと思います。

私は、 WebコンテンツクリーニングするにビタミンBaisaの論文をお勧めします私は彼があまりにもいくつかのコードを持っていると思うが、私はそれのためにリンクを見つけることができません。 A 議論自然言語処理LingPipeブログに非常に同じ問題の。

scroll top