Где я могу получить свежие новостные статьи за прошлый год?
Вопрос
Я пишу код, который вычисляет определенную статистику использования слов.
Кто-нибудь знает, где я могу найти базу данных необработанных новостных статей на различные темы за период (скажем) прошлого года?Предпочтительно, чтобы они были либо в текстовом формате, либо в формате XML.Попытка извлечь контент со случайных веб-сайтов — не лучший вариант.
Я знаю, что в будущем я, вероятно, смогу заархивировать их сам.Однако мне нужно начать процесс с нескольких существующих статей...чем больше тем лучше.
Также будут оценены любые другие идеи относительно наборов корпусных данных, которые легко доступны в простой для анализа форме.
Решение
Вы можете попробовать Интернет-архив.У них есть текстовый раздел, но я не знаю, есть ли там новости.Вы также можете использовать их машину Wayback для получения новостных статей с основного сайта, используя их RSS-каналы.