Pythonによるウィキペディアの記事の紹介部分を抽出する
-
28-09-2019 - |
質問
ウィキペディアの記事の紹介部分を抽出したい(表、画像、その他の部分など、他のすべてのものを無視してください)。記事のHTMLソースを見ましたが、この部分が包まれている特別なタグはありません。
誰かが私にこれに対する簡単な解決策を教えてもらえますか?私はPythonスクリプトを書いています。
ありがとう
解決
ページ全体を取り、すべてのテーブルを取り除き、最初のシーケンスを探すことで、イントロテキストに到達できることがよくありますu003Cp>...u003C/p>マーカーの後にブロックします。その最後のビットはこのregexです:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
.sオプションを作成します。ニューラインをマッチします...
他のヒント
- 確認したい場合があります mwlib ウィキペディアのソースを解析します
- または、を使用します wikidump lib
- HTML画面スクレイピング BeautifulSoup
ああ、このトピックについてはすでに質問があります:
所属していません StackOverflow