のコンテンツのHTML部分文書
-
22-07-2019 - |
質問
このプログラミング問題のアルゴリズムです。
の問題:の"コンテンツ"内のHTMLページに表示されます。
による"コンテンツ"というドが含まれるページのコンテンツが見た人はなく、騒音、単に"ページで実際のコンテンツ".ピックアップしました。問題が定義されていないが、続けましょう...例えば、ブログサイト、これは通常、簡単に閲覧する場合、特定のポストで一般的な追加の上部ページでは、もしかしたナビゲーションの軸としての部門が含まれる内容です。そうとしていることをこれからのHTMLできることには注意を要する。幸運なことに、しかし、最もブログのRSSフィードを送りこの特有のポストさん、 <description> 部または <content:encoded>)ことはいただけたらと思っています。なので、磨きをかける定義のコンテンツ、実物そのものをそのページが含まれる興味深い部分を取り除きすべての広告に、ナビゲーション要素など。でコンテンツを見つけるからブログは比較的簡易に想いをRSSで配信しています。同じくその他のRSSを支持する。
どのコンピュータのハードディスクサイト?多くの場合ニュースサイトでは、RSSになります。どのような一見のコンテンツニュースサイト。何かいつもより一般的なサイト?多くのウェブページ(もちろん、そうではありませんし)のコンテンツ部門やその他の部分できるとお考えの良いアルゴリズムの部分については"面白い"v/sの面白い?おそらく一部変更に変更されることのない?
希望のためのシェイプを作ってみましたん。。よろしく!
解決
俺はこのが生まれると考えられている私の一般的なアプローチ.
として、気にな構造の可視コンテンツ部品(ることはないという感じでタグなど header
, navigation
, ads
のHTMLていることがより難しくなっているホームのキーの一部のページです。私のアプローチする最初の除去性で動きをタイムリーかつ詳細が決まってあっても面白くありません。可能なリストを除き:
- meta要素などの
!doctype
,head
(title
別のデータ) - ダイナミックな素子など
object
,embed
,applet
,script
- 画像によってはるかどうかしていきたいと考えていし)
img
- 押してフォーム変数を新規作成する
form
,input
,textarea
,label
,legend
,select
,option
第二渡って開始を除く一般的に起こる div
または ul
id/クラス名、およびすべてのタグなどによってど
header
,footer
,meta
nav
,navigation
,topnav
,sidebar
ad
,ads
,adu
(その他の名前で使用ads)
このことばを削除す大量の装飾から行っていただきます。次の課題である特定の主な内容からか、私はあなたが最初にこのサイトの著者はセマンティッHTMLを適切に、主として使用 h1
, h2
headタグとは p
項のタグです。
特定コンテンツは、いかヘッダータグである後段落のタグ。(この h2
のためのメインコンテンツの h1
タグすることは、多くの場合(および言不正確に表示するのに使用されるサイトの名称又はマークが期待されていることにより除くにヘッダのページです。) その後の各項の規定を追加する必要があります現在のコンテンツまで、休憩、いずれかの div
または td
要素んでいれば、それらを受け取ったヘッダ要素は、同じレベルの開始しましたよ。
る場合がありますのは複数のコンテンツまたそのページでも本コンテンツのblurb著者について)を検査する必要があり、磨き、意思決定のステップを選ぶ最も蓋然性が高い。これはしばしばあるだけで最大のものの長さと数段落要素を使います。
としてあるすべての事例コンテンツを追加することができますの支援対策アルゴリズム;これが更に多くのページの利用 div id="content"
または id="maincontent"
.することもできる有の二次項目のコンテンツをご検出され、その場合一部のサイトの妙な方法を構造化し、その内容をお客さま人数小児-幼児に追加キャッチャー自のアルゴリズムでの再実行をこのサイトの内容です。
他のヒント
Aプレートサイトにてその地を再利用し、同じコードなどナビゲーション、ヘッダー。
する場合対象ページなどを分析し、閲覧を通じて複数のページの下の同じドメイン/subdomainを見つの要素に共通する全てのページ。それよりも小さい音したいをなくす。
それをご覧になることができなどに残されたが、一部のノイズ滑ってます。またリーズナブルな量のデータを探してみて一部のパターンにします。絞り込みを論理と繰り返す。