質問

私が作り出してしまおうというもの一般化HTMLパーサを作に重要です。い私のパーサの特定のentrieのURL、クリーンテキストのポストそのものです。私の基本的な考え方からpython)の組み合わせを使用BeautifulSoup/Urllib2、大丈夫ですが、はい、適切なタグをブログに入力します。いてより良いアイデア、浮かぶのでしょうか。

ここでは思いつも誰かが拡大しているのに十分な知識-ノウハウのまだらに類するものをいいます。

  1. のunixプログラム"lynxそういう意味での解析をブログの投稿のどこかのパーサているのに使用、またはこの外活用されているのでしょうか。

  2. あるサービス/パーサが自動的に削除迷惑広告などが有ります。

  3. この場合、また曖昧な概念とコメントを追加することができっこのブログポストは非常に一定の定義タグのclass="入力"または類似した.このように、場をつくることができるのですが、アルゴリズムが見つかりを囲むタグをクリーンテキストとして、そのアイデア。

よろしく!

役に立ちましたか?

解決

少ないとの 解決します。

Arc90の読アルゴリズムのはじます。たHTMLコンテンツでピックの内容についてのブログをテキストを無視して、ヘッダfooters、ナビゲーションなど。

この実装は:

んする人々の信じられないようなPerl港CPANカップルです。 行われます。

武器agiは、dexで下がらないboxerぐ!

他のヒント

特に指定したページの「ノイズ」をフィルタリングを見てそこにプロジェクトがあります。これが行われる一般的な方法は、アルゴリズムにページの特定のタイプのいくつかの例を与えることであり、それは部品がそれらの間に変化しないものを見ることができます。それは言って、あなたは、アルゴリズムにあなたが解析したいのすべてのブログののいくつかの例ページ/ポストを与える必要があるだろう。これは通常、あなたがサイトの小さな定義されたセットを持っているときに(例えば、ニュースサイト)をクロールすることがあります適しています。このアルゴリズムは、基本的に、彼らはHTMLで使うテンプレートを検出し、興味深い部分を拾い出しています。魔法がここにありません、それはタフで不完全です。

このalogrithmの良い例は、単にオープンソースであったEveryBlock.comソースコードに見出すことができます。 everyblock.com/codeするに移動し、「ebdata」パッケージをダウンロードし、「templatemaker」を見てモジュールます。

そして、私は明白なことを述べることを意味するものではありませんが、あなただけの問題のブログからRSSを使用して検討していますか?通常のフィールドは、全体のブログの記事、タイトル、およびそれらと一緒に他のメタ情報を持っています。 RSSを使用すると、私が言及した以前のソリューションよりもはるかに簡単になるだろうされます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top