Существуют ли библиотеки или методы для «шумных» текстовых данных?

https://datascience.stackexchange.com/questions/14805

16-10-2019
|

Вопрос

Увеличение данных Методы для данных изображений и аудиодаб (например, распознавание речи) оказались успешными и в настоящее время являются обычными.

Есть ли библиотеки или методы для увеличения текст данные?

Например:

В: «Как дела?»
OUT: [«Как дела?», «Как дела?», «Hwo you?», «Как ты?», «Как ты», ...

Решение

Я хочу каких-то набора данных, таких как данные о проверке заклинаний, я предлагаю вам изучить Корпус с ошибкой вик набор данных. Корпус состоит из более чем 12 миллионов предложений, в общей сложности 14 миллионов изменений различных типов. Все это из истории коррекции Википедии. Владельцы (авторы) набора данных описывают процесс интеллектуального анализа данных в этом бумага. Анкет Также проверьте этот вопрос в Quora Он содержит ссылки на различные наборы данных с ошибками правописания. Наконец это страница также может быть полезен.

Другие советы

Вы можете кодировать определенные простые правила, такие как те, которые вы упомянули в вопросе. Кроме того, вы можете использовать базы знаний, такие как Freebase а также Wordnet чтобы обогатить свою языковую модель. Обратите внимание, что это не обязательно будет «заменять» ваши данные, но повлияет на влияние на увеличение данных, скажем, изображения для нижестоящих задач.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange