La extracción de la parte de introducción de un artículo de Wikipedia, por pitón

https://stackoverflow.com/questions/4295029

28-09-2019
|

Pregunta

Quiero extraer la parte de introducción de un artículo de Wikipedia (ignorando todas las demás cosas, incluyendo tablas, imágenes y otras partes). Miré en la fuente HTML de los artículos, pero no veo ninguna etiqueta especial que esta parte está envuelto en.

¿alguien puede dar una solución rápida a este? Estoy escribiendo scripts de Python.

gracias

Solución

creo que a menudo se puede llegar al texto de introducción mediante la adopción de la página completa, excluyendo todas las tablas, y luego en busca de la primera secuencia de

...

nuevos bloques del marcador. Esto último sería la siguiente expresión regular:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

Con la opción de hacer .S. coincidir con saltos de línea ...

Otros consejos

Es posible que desee comprobar mwlib para analizar la Wikipedia fuente
Alternativamente, utilizar el wikidump lib
pantalla HTML raspado a través BeautifulSoup

Ah, hay una pregunta que ya están en SO sobre este tema:

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow