Извлечение введения части статьи Википедии Python

StackOverflow https://stackoverflow.com/questions/4295029

  •  28-09-2019
  •  | 
  •  

Вопрос

Я хочу извлечь введение части википедии (игнорируя все остальные вещи, включая таблицы, изображения и другие части). Я посмотрел на HTML источник статей, но я не вижу какой-либо специального тега, который эта часть завернута.

Кто-нибудь может дать мне быстрое решение для этого? Я пишу сценарии Python.

спасибо

Это было полезно?

Решение

Я думаю, что вы часто можете добраться до вступления в текст, взяв полную страницу, развязав все таблицы, а затем ищете первую последовательностьu003Cp> ...u003C/p> Блоки после маркера. Этот последний бит будет этим Regex:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

С .s вариант сделать. Соответствие новых линий ...

Другие советы

  1. Вы можете проверить Mwlib разбирать источник Википедии
  2. Альтернативно, используйте Wikidump. либ
  3. HTML экран соскабливается через BeautifulSoup

Ах, есть вопрос уже на этом теме:

  1. Разборки свалки Википедии
  2. Как разбираться / извлечь данные из Mediawiki Make-Up Arture через Python
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top