Как обрабатывать слова с ошибками в документах для задач для разработки текста?
-
28-09-2019 - |
Вопрос
У меня есть набор неформальных документов (пару тысяч), которые я хочу применить тему моделирования (MALLEET). Проблема в том, что в документах есть значительное количество слов с ошибками. Большинство намерены, такие как короткие формы и местные линго, такие как «Juz» -> «просто», «alr» -> «уже». Пару этих вариантов существует благодаря своеобразным стилям написания разных авторов.
После кормления их к молочному питанию я вроде беспокоил, что одна из генерируемых тем на самом деле является набором спусковых слов с ошибками. Я считаю, что эти слова в основном используются в небольшом подмножестве документов от одного и того же автора, следовательно, молоток поднял его.
Мой вопрос, я проверяет и исправляю эти наборы слов с ошибками, и, возможно, где-то сохранить исправленный текст, прежде чем проводить дальнейшие задачи на них? Я полагаю, что это означало бы, что мне нужно вручную проверить исправления, прежде чем совершать правильно? Какой был бы самый «эффективный» способ сделать это?
Или я на самом деле игнорирую эти ошибки с ошибками?
Решение
Что вы делаете с остановками на данный момент? Если вы делаете тему моделирования, то это имеет смысл отфильтровывать их. Если это так, почему вы тоже не отфилялируете эти условия?
Редактировать в ответ на ответ
Есть некоторые исследования о обработке стоп-слов в пределах LDA более принципиальной образом. Есть две бумаги, которые в разуме есть две бумаги:
- Схемы взвешенного срока для распределения скрытых дирихле
- Переосмысление ЛДА: Почему приоры имеют значение.
[1] использует срок весовой схемы, которая, по-видимому, помогает в предсказательной задаче, которую они создали, [2] Использует не симметричное перед распределениями слов, которые, по-видимому, приводят к нескольким тем, которые содержат все слов стоп-слов и другие слова, общие для всего корпуса.
Мне кажется, что лучший способ автоматически сделать вывод стоп-слов и другие не тематические слова в ЛДА по-прежнему является исследовательским вопросом.
Другие советы
Я не думаю, что мы можем ответить на то, что не зная влияние слов с ошибками или неправильно поврежденными словами в результате моделирования вашей темы. Так что, если бы вы могли дать больше информации, это было бы хорошо.
Тем не менее, я бы подумал, что вы хотели их исправить, по крайней мере, где коррекция явно является намерением оригинального автора.