Question

J'écris un code qui calcule certaines statistiques sur les usages de mots.

Est-ce que quelqu'un sait où je peux trouver une base de données d'articles de presse premières de divers sujets sur une période de (disons) l'année dernière? De préférence, ils seraient soit en format texte brut ou XML. Essayer de gratter le contenu des sites Web au hasard ne sont pas une bonne option.

Je sais aller de l'avant, je pourrais probablement les archiver moi-même. Cependant, je dois relancer le processus avec un tas d'articles existants ... plus on est de fous.

D'autres idées corpus ensembles de données qui sont facilement disponibles dans un langage simple pour analyser la forme seraient également appréciées.

Était-ce utile?

La solution

Vous pouvez essayer Internet Archive . Ils ont une section de texte, mais je ne sais pas si elle a des nouvelles. Vous pourriez également être en mesure d'utiliser leur machine à remonter le temps pour tirer des articles de presse des principaux site en utilisant leurs flux RSS.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top