PNL: Construire de (petits) corpus, ou “Où trouver beaucoup de fichiers texte en anglais pas trop spécialisés?”

https://stackoverflow.com/questions/137380

02-07-2019
|

Question

Quelqu'un a-t-il une suggestion quant à l'emplacement des archives ou des collections de textes en anglais de tous les jours utilisables dans un petit corpus? J'utilise les livres du projet Gutenberg pour un prototype fonctionnel et j'aimerais intégrer un langage plus contemporain. Une réponse récente indique ici indirectement un grand archive des critiques de films Usenet , ce qui ne m’était pas venu à l’esprit et qui est très bon. Pour ce programme particulier, les archives techniques usenet ou les listes de diffusion de programmation inclineraient les résultats et seraient difficiles à analyser, mais tout type de texte de blog général, de transcription de discussion ou tout ce qui aurait pu être utile à d’autres serait très utile. En outre, un corpus de recherche partiel ou téléchargeable qui n'est pas trop marqué, ou une méthode heuristique permettant de trouver un sous-ensemble approprié d'articles de Wikipédia, ou toute autre idée, est très apprécié.

(En passant, je suis un bon citoyen qui télécharge en utilisant un script délibérément lent qui n’exige pas de serveurs hébergeant un tel matériel, au cas où vous percevriez un risque moral en me signalant quelque chose d’énorme.)

MISE À JOUR : l'utilisateur S0rin souligne que wikipedia ne demande pas d'analyse et fournit un cet outil d'exportation à la place. Le projet Gutenberg a une politique spécifiée ici , en bout de ligne, essayez de ne pas explorer, mais vous devez: "Configurer votre robot pour qu'il attende au moins 2 secondes entre les demandes".

UPDATE 2 Les dumps de Wikipédia sont la solution, grâce aux répondeurs qui les ont signalés. J'ai fini par utiliser la version anglaise d'ici: http://download.wikimedia.org/enwiki/20090306 / , et un vidage en espagnol de la moitié environ. Ce sont des travaux à nettoyer, mais qui en valent la peine et qui contiennent beaucoup de données utiles dans les liens.

La solution

Utilisez les vidages de Wikipedia .
- a besoin de beaucoup de nettoyage
Vérifiez si quelque chose dans nltk-data vous aide
- les corpus sont généralement assez petits
les personnes loufoques ont un corpus gratuit
- marqué
- vous pouvez créer votre propre corpus en utilisant leur boîte à outils
Europarl est gratuit et constitue la base de pratiquement tous les systèmes de traduction automatique universitaires.
- langue parlée, traduite
Les Corpus Reuters sont gratuits, mais uniquement disponibles sur le CD

Vous pouvez toujours obtenir le vôtre, mais sachez-le: les pages HTML nécessitent souvent un nettoyage important, alors limitez-vous aux flux RSS.

Si vous le faites dans le commerce, la LDC pourrait constituer une alternative viable.

Autres conseils

Wikipedia semble être la voie à suivre. Il existe une API expérimentale de Wikipedia qui pourrait être utile, mais je ne sais pas comment Ça marche. Jusqu'à présent, j'ai seulement gratté Wikipedia avec des araignées personnalisées ou même wget .

Ensuite, vous pouvez rechercher des pages proposant le texte intégral de leur article dans les flux RSS. RSS, car aucune balise HTML ne vous gêne.

Supprimer les listes de diffusion et / ou Usenet présente plusieurs inconvénients: vous obtiendrez AOLbonics et Techspeak, et cela pèsera lourdement sur votre corpus.

Les corpus classiques sont la Penn Treebank et le British National Corpus, mais ils sont payés. Vous pouvez consulter les archives de la liste de corpus , ou même leur demander votre avis. Vous trouverez peut-être des données utiles à l'aide des outils Web en tant que corpus .

J'ai en fait un petit projet en construction qui permet le traitement linguistique sur des pages Web arbitraires. Il devrait être prêt à être utilisé dans les prochaines semaines, mais jusqu'à présent, il n'est pas vraiment censé être un grattoir. Mais je pourrais écrire un module pour cela, je suppose, la fonctionnalité est déjà là.

Si vous êtes prêt à payer, vous devriez consulter les données disponibles au Consortium de données linguistiques, telles que la Penn Treebank.

Wikipedia semble être le meilleur moyen. Oui, vous devez analyser la sortie. Mais grâce aux catégories de wikipedia, vous pouvez facilement obtenir différents types d'articles et de mots. par exemple. en analysant toutes les catégories scientifiques, vous pouvez obtenir beaucoup de mots scientifiques. Les détails sur les lieux seraient faussés par rapport aux noms géographiques, etc.

Vous avez couvert les plus évidents. Les seuls autres domaines auxquels je peux penser sont aussi:

1) Articles de presse / blogs.

2) Les magazines publient beaucoup de matériel gratuit en ligne et vous pouvez obtenir un bon échantillon de sujets.

En regardant dans les données de wikipedia, j'ai remarqué qu'ils avaient fait une analyse sur des corps de scripts de télévision et de film . Je pensais que le texte pourrait être intéressant mais pas facilement accessible - il s’avère qu’il est partout et qu’il est suffisamment structuré et prévisible pour pouvoir le nettoyer. Ce site , intitulé utilement "Un ensemble de scripts de film et de scénarios dans un emplacement unique" net ", serait probablement utile à quiconque trébuche sur ce fil avec une question similaire.

Vous pouvez obtenir le contenu des citations (sous forme limitée) ici: http://quotationsbook.com/services/

Ce contenu se trouve également sur Freebase.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow