Вопрос

Представьте себе, что мы можем создать таблицу статистики, сколько каждое слово используется в некотором английском тексте или книге. Мы можем собирать статистику для каждого текста/книги в библиотеке. Каков самый простой способ сравнить эти статистику друг с другом? Как мы можем найти группу/кластер текстов с очень статистически похожим лексиконом?

Это было полезно?

Решение

Во -первых, вам нужно нормализовать лексику (то есть убедитесь, что у обоих лексиков есть такой же запас слов).

Тогда вы можете использовать метрику сходства, например Хелленгерстное расстояние или косинус сходство сравнить два лексикона.

Также может быть хорошей идеей изучить пакеты машинного обучения, такие как Weka.

Эта книга является отличным источником для машинного обучения, и вы можете найти его полезным.

Другие советы

Я бы начал с того, что мог предложить Lucene (http://lucene.apache.org/java/docs/index.html). После этого вам нужно будет использовать метод машинного обучения и посмотреть http://en.wikipedia.org/wiki/information_retrieval.

Вы можете рассмотреть возможность расстояния Куллбека Лейблера. Для справки, см. Стр. 18 обложки и Томаса:

Глава 2, обложка и Томас

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top