La partie de l'extraction de l'introduction d'un article de Wikipédia en python
-
28-09-2019 - |
Question
Je veux extraire la partie d'introduction d'un article de wikipedia (en ignorant toutes les autres choses, y compris des tables, des images et d'autres parties). Je regardais à la source html des articles, mais je ne vois aucune balise spéciale qui cette partie est enveloppé dans.
Quelqu'un peut-il me donner une solution rapide à ce sujet? Je l'écriture de scripts python.
Merci
La solution
Je pense que vous pouvez souvent obtenir le texte d'intro en prenant la pleine page, décapage sur toutes les tables, et puis la recherche de la première séquence de
...
blocs après le marqueur. Ce dernier bit serait ce regex:/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
Avec l'option .S à faire. correspondre ... retour à la ligne
Autres conseils
- Vous pouvez vouloir vérifier MWLIB pour analyser le wikipedia source
- Vous pouvez également utiliser la wikidump lib
- écran HTML grattage par BeautifulSoup
Ah, il y a une question déjà SO à ce sujet:
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow