Pregunta

Quiero extraer la parte de introducción de un artículo de Wikipedia (ignorando todas las demás cosas, incluyendo tablas, imágenes y otras partes). Miré en la fuente HTML de los artículos, pero no veo ninguna etiqueta especial que esta parte está envuelto en.

¿alguien puede dar una solución rápida a este? Estoy escribiendo scripts de Python.

gracias

¿Fue útil?

Solución

creo que a menudo se puede llegar al texto de introducción mediante la adopción de la página completa, excluyendo todas las tablas, y luego en busca de la primera secuencia de

...

nuevos bloques del marcador. Esto último sería la siguiente expresión regular:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

Con la opción de hacer .S. coincidir con saltos de línea ...

Otros consejos

  1. Es posible que desee comprobar mwlib para analizar la Wikipedia fuente
  2. Alternativamente, utilizar el wikidump lib
  3. pantalla HTML raspado a través BeautifulSoup

Ah, hay una pregunta que ya están en SO sobre este tema:

  1. analizar un volcado Wikipedia
  2. cómo analizar / extraer datos de un artículo marcada arriba MediaWiki a través de pitón
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top