Как обрабатывать слова с ошибками в документах для задач для разработки текста?

https://stackoverflow.com/questions/4276500

28-09-2019
|

Вопрос

У меня есть набор неформальных документов (пару тысяч), которые я хочу применить тему моделирования (MALLEET). Проблема в том, что в документах есть значительное количество слов с ошибками. Большинство намерены, такие как короткие формы и местные линго, такие как «Juz» -> «просто», «alr» -> «уже». Пару этих вариантов существует благодаря своеобразным стилям написания разных авторов.

После кормления их к молочному питанию я вроде беспокоил, что одна из генерируемых тем на самом деле является набором спусковых слов с ошибками. Я считаю, что эти слова в основном используются в небольшом подмножестве документов от одного и того же автора, следовательно, молоток поднял его.

Мой вопрос, я проверяет и исправляю эти наборы слов с ошибками, и, возможно, где-то сохранить исправленный текст, прежде чем проводить дальнейшие задачи на них? Я полагаю, что это означало бы, что мне нужно вручную проверить исправления, прежде чем совершать правильно? Какой был бы самый «эффективный» способ сделать это?

Или я на самом деле игнорирую эти ошибки с ошибками?

Решение

Что вы делаете с остановками на данный момент? Если вы делаете тему моделирования, то это имеет смысл отфильтровывать их. Если это так, почему вы тоже не отфилялируете эти условия?

Редактировать в ответ на ответ

Есть некоторые исследования о обработке стоп-слов в пределах LDA более принципиальной образом. Есть две бумаги, которые в разуме есть две бумаги:

[1] использует срок весовой схемы, которая, по-видимому, помогает в предсказательной задаче, которую они создали, [2] Использует не симметричное перед распределениями слов, которые, по-видимому, приводят к нескольким тем, которые содержат все слов стоп-слов и другие слова, общие для всего корпуса.

Мне кажется, что лучший способ автоматически сделать вывод стоп-слов и другие не тематические слова в ЛДА по-прежнему является исследовательским вопросом.

Другие советы

Я не думаю, что мы можем ответить на то, что не зная влияние слов с ошибками или неправильно поврежденными словами в результате моделирования вашей темы. Так что, если бы вы могли дать больше информации, это было бы хорошо.

Тем не менее, я бы подумал, что вы хотели их исправить, по крайней мере, где коррекция явно является намерением оригинального автора.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow