Pythonによるウィキペディアの記事の紹介部分を抽出する

質問

ウィキペディアの記事の紹介部分を抽出したい（表、画像、その他の部分など、他のすべてのものを無視してください）。記事のHTMLソースを見ましたが、この部分が包まれている特別なタグはありません。

誰かが私にこれに対する簡単な解決策を教えてもらえますか？私はPythonスクリプトを書いています。

ありがとう

解決

ページ全体を取り、すべてのテーブルを取り除き、最初のシーケンスを探すことで、イントロテキストに到達できることがよくありますu003Cp>...u003C/p>マーカーの後にブロックします。その最後のビットはこのregexです：

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

.sオプションを作成します。ニューラインをマッチします...

他のヒント

ああ、このトピックについてはすでに質問があります：

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow