質問

テキストが多い記事であるHTMLページを考えると、主要なコンテンツを特定して解析したいと思います。

http://www.fivethirtyeightを使用します。 com / 2009/08 / chavismo-obama-and-monroe-doctrine.html を例として、div#post-4438372351887392855を特定したいと思います。これにはタイトルと記事が含まれています。

完璧なものは何もないか、100%の時間で動作することはわかっていますが、合理的な数の状況で望ましい結果を得ることができるアプローチはありますか?

現在の考えは、各divを反復処理してマークアップを削除し、最も多くのテキストを含む最も内側のdivを見つけることです。

この時点で、私はまだ始まったばかりなので、入力を探して、概念的なアプローチに向けることができます。または、何かがそこにあるなら、オープンソースライブラリがいいでしょう。

洞察に感謝します。

役に立ちましたか?

解決

arc90の一部のユーザーは、読みやすさのブックマークレットを使用して、これでかなり印象的な仕事をしました。 。 「メイン」コンテンツを見つけるのに非常に良い仕事をしているようです-あなたがリストしたページで完全に動作します。
よくコメントされたJavaScript(ブックマークレットにリンクされている)を確認できますが、開発者にアイデアや使用許可について問い合わせることができます。

他のヒント

プライマリコンテンツ抽出のためのリソースの最も完全なコンパイル済みリストは次のとおりです。

  1. htmlドキュメントから記事テキストを抽出
  2. リソースのリスト:記事HTMLドキュメントからのテキスト抽出

追加のヒントがありますので、コメントもご覧ください。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top