Domanda

Sto scrivendo un codice che calcola alcune statistiche circa gli usi di parola.

Qualcuno sa dove posso trovare un database di articoli di notizie prime provenienti da vari argomenti nel corso di un periodo di (diciamo) l'anno scorso? Preferibilmente sarebbero sia in formato testo o XML. Cercando di contenuti raschiare da siti web casuali non è una buona opzione.

So che andando avanti, probabilmente avrei potuto archiviare io stesso. Tuttavia, ho bisogno di calcio di avviare il processo con un mucchio di articoli esistenti ... più siamo meglio è.

Tutte le altre idee per corpus insiemi di dati che sono facilmente disponibili in semplice forma di analisi sarebbe anche apprezzato.

È stato utile?

Soluzione

Si potrebbe provare il Internet Archive . Hanno una sezione di testo, ma non so se ha notizie. Si potrebbe anche essere in grado di utilizzare la loro macchina Wayback per tirare su articoli di notizie dal sito principale utilizzando i propri feed RSS.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top