Сравнение текстовых частот в документе до частоты в корпусе
-
09-10-2019 - |
Вопрос
Я хочу проанализировать документ для таких предметов, как буквы, биграмс, слова и т. Д., И сравнить, насколько они часто в моем документе, насколько часто они были над крупным корпусом документов.
Идея состоит в том, что слова, такие как «если», «и« », являются общими во всех документах, но некоторые слова будут гораздо чаще встречаться в этом документе, чем типичны для корпуса.
Это должно быть довольно стандартным. Как это называется? Делать это очевидным способом у меня всегда была проблема с новыми словами в моем документе, но не в рейтинге корпуса бесконечно значимым. Как это дело?
Решение
скорее всего вы уже проверили TF-IDF.или некоторые другие метрики от okapi_bm25. семья.
Также вы можете проверить Инструментарий обработки натурального языка NLTK Для некоторых готовых решений
Обновление: Что касается новых слов, следует применить сглаживание: Хорошо, Лаплас и т. Д.
Другие советы
Он поступает под заголовком линейных классификаторов с наивными байесами классификаторами, являющимися самой известной формой (из-за ее удивительной простоты и устойчивости при атаке проблем реальной мировой классификации).