Существуют ли библиотеки или методы для «шумных» текстовых данных?
-
16-10-2019 - |
Вопрос
Увеличение данных Методы для данных изображений и аудиодаб (например, распознавание речи) оказались успешными и в настоящее время являются обычными.
Есть ли библиотеки или методы для увеличения текст данные?
Например:
В: «Как дела?»
OUT: [«Как дела?», «Как дела?», «Hwo you?», «Как ты?», «Как ты», ...
Решение
Я хочу каких-то набора данных, таких как данные о проверке заклинаний, я предлагаю вам изучить Корпус с ошибкой вик набор данных. Корпус состоит из более чем 12 миллионов предложений, в общей сложности 14 миллионов изменений различных типов. Все это из истории коррекции Википедии. Владельцы (авторы) набора данных описывают процесс интеллектуального анализа данных в этом бумага. Анкет Также проверьте этот вопрос в Quora Он содержит ссылки на различные наборы данных с ошибками правописания. Наконец это страница также может быть полезен.
Другие советы
Вы можете кодировать определенные простые правила, такие как те, которые вы упомянули в вопросе. Кроме того, вы можете использовать базы знаний, такие как Freebase а также Wordnet чтобы обогатить свою языковую модель. Обратите внимание, что это не обязательно будет «заменять» ваши данные, но повлияет на влияние на увеличение данных, скажем, изображения для нижестоящих задач.