НЛП:Создание (небольших) корпусов, или “Где взять много не слишком специализированных текстовых файлов на английском языке?”

https://stackoverflow.com/questions/137380

02-07-2019
|

Вопрос

Есть ли у кого-нибудь предложения о том, где найти архивы или коллекции повседневного английского текста для использования в небольшом корпусе?Я использовал Gutenberg Project books в качестве рабочего прототипа и хотел бы использовать более современный язык.A недавний ответ это косвенно указывало на большой архив обзоров фильмов usenet, что мне не приходило в голову, и это очень хорошо.Для этой конкретной программы технические архивы usenet или программные списки рассылки искажают результаты и их трудно анализировать, но любой общий текст в блоге, или стенограммы чатов, или что-либо еще, что могло быть полезно другим, было бы очень полезно.Кроме того, мы очень ценим частичный или загружаемый исследовательский корпус, который не слишком размечен, или какую-нибудь эвристику для поиска подходящего подмножества статей Википедии, или любую другую идею.

(Кстати, я веду себя как добропорядочный гражданин без загрузки, используя намеренно медленный скрипт, который не требователен к серверам, на которых размещены такие материалы, на случай, если вы сочтете моральным риском указывать мне на что-то огромное.)

Обновить:Пользователь S0rin указывает, что википедия не запрашивает обход и предоставляет этот инструмент экспорта вместо этого.У проекта "Гутенберг" есть определенная политика здесь, в итоге, старайтесь не ползти, но если вам нужно:"Настройте своего робота на ожидание не менее 2 секунд между запросами".

ОБНОВЛЕНИЕ 2 Дампы викпедии - это правильный путь, спасибо авторам ответов, которые указали на них.В итоге я использовал английскую версию отсюда: http://download.wikimedia.org/enwiki/20090306/ , и испанская свалка примерно в два раза меньше.Их нужно немного почистить, но это того стоит, и они содержат много полезных данных в ссылках.

Решение

Используйте Свалки Википедии
- нуждается в большой очистке
Посмотри, есть ли что-нибудь в nltk-данные помогает вам
- корпуса обычно довольно маленькие
тот самый Чокнутый у людей есть несколько бесплатных корпусов
- помеченный
- вы можете создать свой собственный корпус, используя их инструментарий
Европарл является бесплатным и лежит в основе практически любой академической системы MT
- разговорный язык, переведенный
Тот Самый Корпорация Рейтер предоставляются бесплатно, но доступны только на компакт-диске

Вы всегда можете получить свой собственный, но имейте в виду:HTML-страницы часто нуждаются в интенсивной очистке, поэтому ограничьтесь RSS-каналами.

Если вы делаете это на коммерческой основе, то НРС это могло бы быть жизнеспособной альтернативой.

Другие советы

Википедия звучит как правильный путь.Существует экспериментальный API Википедии это могло бы быть полезно, но я понятия не имею, как это работает.До сих пор я чистил Википедию только с помощью пользовательских пауков или даже wget.

Затем вы могли бы выполнить поиск страниц, которые предлагают полный текст статьи в RSS-лентах.RSS, потому что никакие HTML-теги вам не помешают.

Очистка списков рассылки и / или Usenet имеет несколько недостатков:вы будете изучать AOLbonics и Techspeak, и это сильно повлияет на ваш корпус.

Классическими корпусами являются Penn Treebank и British National Corpus, но за них платят.Вы можете прочитать Архивы списков корпусов, или даже спросить их об этом.Возможно, вы найдете полезные данные, используя Сеть как корпус Инструменты.

На самом деле у меня есть небольшой проект в разработке, который позволяет выполнять лингвистическую обработку на произвольных веб-страницах.Он должен быть готов к использованию в течение следующих нескольких недель, но на самом деле это не скребок.Но я мог бы написать модуль для этого, я думаю, функциональность уже есть.

Если вы готовы платить деньги, вам следует ознакомиться с данными, доступными в Консорциуме лингвистических данных, таком как Penn Treebank.

Википедия, по-видимому, является лучшим способом.Да, вам пришлось бы проанализировать выходные данные.Но благодаря категориям Википедии вы могли бы легко получить различные типы статей и слов.например ,проанализировав все научные категории, вы могли бы получить множество научных слов.Информация о местах была бы искажена в сторону географических названий и т.д.

Вы рассмотрели самые очевидные из них.Единственные другие области, о которых я могу думать , тоже дополняют:

1) Новостные статьи / блоги.

2) Журналы публикуют много бесплатных материалов онлайн, и вы можете получить хороший обзор тем.

Просматривая данные Википедии, я заметил, что они сделали некоторый анализ текстов теле- и киносценариев.Я подумал, что это может быть интересный текст, но труднодоступный - оказывается, он есть везде, и он достаточно структурирован и предсказуем, чтобы можно было его почистить. Этот сайт, услужливо озаглавленное "Куча сценариев фильмов в одном месте в сети", вероятно, было бы полезно всем, кто наткнется на эту тему с подобным вопросом.

Вы можете ознакомиться с содержанием предложений (в ограниченной форме) здесь:http://quotationsbook.com/services/

Этот контент также находится на бесплатной базе.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow