Question

Je veux extraire la partie d'introduction d'un article de wikipedia (en ignorant toutes les autres choses, y compris des tables, des images et d'autres parties). Je regardais à la source html des articles, mais je ne vois aucune balise spéciale qui cette partie est enveloppé dans.

Quelqu'un peut-il me donner une solution rapide à ce sujet? Je l'écriture de scripts python.

Merci

Était-ce utile?

La solution

Je pense que vous pouvez souvent obtenir le texte d'intro en prenant la pleine page, décapage sur toutes les tables, et puis la recherche de la première séquence de

...

blocs après le marqueur. Ce dernier bit serait ce regex:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

Avec l'option .S à faire. correspondre ... retour à la ligne

Autres conseils

  1. Vous pouvez vouloir vérifier MWLIB pour analyser le wikipedia source
  2. Vous pouvez également utiliser la wikidump lib
  3. écran HTML grattage par BeautifulSoup

Ah, il y a une question déjà SO à ce sujet:

  1. une décharge Parsing Wikipedia
  2. Comment parse / d'extraire des données à partir d'un article marqué mediawiki-up via python
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top