Эффективное обнаружение ключевых слов / извлечение. Предопределенный набор ключевых слов

StackOverflow https://stackoverflow.com/questions/4863396

Вопрос

Как я могу эффективно извлечь ключевые слова с актуальностью из строки? Мой список ключевых слов предопределен. Например, в статье о Мишель Обаме, в которой также упоминается Барак Обама, я хочу извлечь Michelle Obama а также Barack Obama с ключевым словом Michelle Obama Получение более высокой ценности (оба Michelle Obama а также Barack Obama присутствуют в моем списке ключевых слов).

Проверка строки для количества возникновения каждого ключевого слова не кажется очень эффективной. Мое приложение разработано в PHP, но любой язык в порядке, если я могу сделать это эффективно.

Я попробовал Opencalais, но это не обнаруживает большинство моих ключевых слов. Можно ли извлечь ключевые слова с помощью Lucene?

Это было полезно?

Решение

Пакет Apache Lucene подойдет вам. Однако, если у вас есть заголовок и абзацы, вы можете отфильтровать слова Stop, дать более высокие ряды для слов в заголовке, а затем сопоставить их или их формы в абзацах. Вы можете проконсультироваться с некоторыми статьями для обобщения текста для самого лучшего программирования.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top