質問

ウィキペディアの記事の紹介部分を抽出したい(表、画像、その他の部分など、他のすべてのものを無視してください)。記事のHTMLソースを見ましたが、この部分が包まれている特別なタグはありません。

誰かが私にこれに対する簡単な解決策を教えてもらえますか?私はPythonスクリプトを書いています。

ありがとう

役に立ちましたか?

解決

ページ全体を取り、すべてのテーブルを取り除き、最初のシーケンスを探すことで、イントロテキストに到達できることがよくありますu003Cp>...u003C/p>マーカーの後にブロックします。その最後のビットはこのregexです:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

.sオプションを作成します。ニューラインをマッチします...

他のヒント

  1. 確認したい場合があります mwlib ウィキペディアのソースを解析します
  2. または、を使用します wikidump lib
  3. HTML画面スクレイピング BeautifulSoup

ああ、このトピックについてはすでに質問があります:

  1. ウィキペディアのダンプを解析します
  2. Pythonを介してMediawikiマークアップされた記事からデータを解析/抽出する方法
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top