Извлечение введения части статьи Википедии Python
-
28-09-2019 - |
Вопрос
Я хочу извлечь введение части википедии (игнорируя все остальные вещи, включая таблицы, изображения и другие части). Я посмотрел на HTML источник статей, но я не вижу какой-либо специального тега, который эта часть завернута.
Кто-нибудь может дать мне быстрое решение для этого? Я пишу сценарии Python.
спасибо
Решение
Я думаю, что вы часто можете добраться до вступления в текст, взяв полную страницу, развязав все таблицы, а затем ищете первую последовательностьu003Cp> ...u003C/p> Блоки после маркера. Этот последний бит будет этим Regex:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
С .s вариант сделать. Соответствие новых линий ...
Другие советы
- Вы можете проверить Mwlib разбирать источник Википедии
- Альтернативно, используйте Wikidump. либ
- HTML экран соскабливается через BeautifulSoup
Ах, есть вопрос уже на этом теме:
Не связан с StackOverflow