La partie de l'extraction de l'introduction d'un article de Wikipédia en python

https://stackoverflow.com/questions/4295029

28-09-2019
|

Question

Je veux extraire la partie d'introduction d'un article de wikipedia (en ignorant toutes les autres choses, y compris des tables, des images et d'autres parties). Je regardais à la source html des articles, mais je ne vois aucune balise spéciale qui cette partie est enveloppé dans.

Quelqu'un peut-il me donner une solution rapide à ce sujet? Je l'écriture de scripts python.

Merci

La solution

Je pense que vous pouvez souvent obtenir le texte d'intro en prenant la pleine page, décapage sur toutes les tables, et puis la recherche de la première séquence de

...

blocs après le marqueur. Ce dernier bit serait ce regex:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

Avec l'option .S à faire. correspondre ... retour à la ligne

Autres conseils

Vous pouvez vouloir vérifier MWLIB pour analyser le wikipedia source
Vous pouvez également utiliser la wikidump lib
écran HTML grattage par BeautifulSoup

Ah, il y a une question déjà SO à ce sujet:

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow