La extracción de la parte de introducción de un artículo de Wikipedia, por pitón
-
28-09-2019 - |
Pregunta
Quiero extraer la parte de introducción de un artículo de Wikipedia (ignorando todas las demás cosas, incluyendo tablas, imágenes y otras partes). Miré en la fuente HTML de los artículos, pero no veo ninguna etiqueta especial que esta parte está envuelto en.
¿alguien puede dar una solución rápida a este? Estoy escribiendo scripts de Python.
gracias
Solución
creo que a menudo se puede llegar al texto de introducción mediante la adopción de la página completa, excluyendo todas las tablas, y luego en busca de la primera secuencia de
...
nuevos bloques del marcador. Esto último sería la siguiente expresión regular:/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
Con la opción de hacer .S. coincidir con saltos de línea ...
Otros consejos
- Es posible que desee comprobar mwlib para analizar la Wikipedia fuente
- Alternativamente, utilizar el wikidump lib
- pantalla HTML raspado a través BeautifulSoup
Ah, hay una pregunta que ya están en SO sobre este tema:
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow