Сравнение текстовых частот в документе до частоты в корпусе

StackOverflow https://stackoverflow.com/questions/4372661

Вопрос

Я хочу проанализировать документ для таких предметов, как буквы, биграмс, слова и т. Д., И сравнить, насколько они часто в моем документе, насколько часто они были над крупным корпусом документов.

Идея состоит в том, что слова, такие как «если», «и« », являются общими во всех документах, но некоторые слова будут гораздо чаще встречаться в этом документе, чем типичны для корпуса.

Это должно быть довольно стандартным. Как это называется? Делать это очевидным способом у меня всегда была проблема с новыми словами в моем документе, но не в рейтинге корпуса бесконечно значимым. Как это дело?

Это было полезно?

Решение

скорее всего вы уже проверили TF-IDF.или некоторые другие метрики от okapi_bm25. семья.

Также вы можете проверить Инструментарий обработки натурального языка NLTK Для некоторых готовых решений

Обновление: Что касается новых слов, следует применить сглаживание: Хорошо, Лаплас и т. Д.

Другие советы

Он поступает под заголовком линейных классификаторов с наивными байесами классификаторами, являющимися самой известной формой (из-за ее удивительной простоты и устойчивости при атаке проблем реальной мировой классификации).

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top