Pregunta

Estoy escribiendo un código que calcula algunas estadísticas sobre los usos de palabras.

¿Alguien sabe donde puedo encontrar una base de datos de artículos de noticias en bruto de varios temas durante un período de (por ejemplo) el último año? Preferiblemente estarían ya sea en formato de texto plano o XML. Tratando de contenido raspadura de sitios web al azar no es una buena opción.

Sé que en el futuro probablemente les podía archivar mí mismo. Sin embargo, necesito para poner en marcha el proceso con un montón de artículos que comienzan ... cuantos más mejor.

Cualquier otras ideas para Corpus conjuntos de datos que están fácilmente disponibles en forma simple de análisis sintáctico sería También se apreciará.

¿Fue útil?

Solución

Internet Archive . Tienen una sección de texto, pero no sé si se tiene noticia. También podría ser capaz de utilizar su máquina de Wayback para levantar los artículos de noticias del sitio importante el uso de sus canales RSS.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top