Pergunta

Estou escrevendo algum código que calcula certas estatísticas sobre o uso de palavras.

Alguém sabe onde posso encontrar um banco de dados de artigos de notícias brutas de vários tópicos por um período de (digamos) no ano passado? De preferência, eles estariam em formato de texto sem formatação ou XML. Tentar raspar o conteúdo de sites aleatórios não é uma boa opção.

Eu sei que daqui para frente eu provavelmente poderia arquivá -los. No entanto, preciso iniciar o processo com vários artigos existentes ... quanto mais o melhor.

Quaisquer outras idéias para os conjuntos de dados corpus que estão facilmente disponíveis em forma simples de analisar também seriam apreciadas.

Foi útil?

Solução

Você pode tentar o Arquivo da Internet. Eles têm uma seção de texto, mas não sei se tem notícias. Você também pode usar a máquina Wayback para extrair artigos de notícias do site principal usando seus feeds RSS.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top