Где я могу получить свежие новостные статьи за прошлый год?

StackOverflow https://stackoverflow.com/questions/2359316

  •  23-09-2019
  •  | 
  •  

Вопрос

Я пишу код, который вычисляет определенную статистику использования слов.

Кто-нибудь знает, где я могу найти базу данных необработанных новостных статей на различные темы за период (скажем) прошлого года?Предпочтительно, чтобы они были либо в текстовом формате, либо в формате XML.Попытка извлечь контент со случайных веб-сайтов — не лучший вариант.

Я знаю, что в будущем я, вероятно, смогу заархивировать их сам.Однако мне нужно начать процесс с нескольких существующих статей...чем больше тем лучше.

Также будут оценены любые другие идеи относительно наборов корпусных данных, которые легко доступны в простой для анализа форме.

Это было полезно?

Решение

Вы можете попробовать Интернет-архив.У них есть текстовый раздел, но я не знаю, есть ли там новости.Вы также можете использовать их машину Wayback для получения новостных статей с основного сайта, используя их RSS-каналы.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top