Методы геотаггинга или гео-маркировки текстового контента

StackOverflow https://stackoverflow.com/questions/163923

Вопрос

Какие есть хорошие алгоритмы для автоматической маркировки текста с указанием города / региона или происхождения? То есть, если блог о Нью-Йорке, как я могу сказать программно. Существуют ли пакеты / документы, которые утверждают, что делают это с какой-то степенью уверенности?

Я рассмотрел некоторые подходы, основанные на tfidf, правильные пересечения существительных, но пока что никаких впечатляющих успехов нет, и я был бы признателен за идеи!

Более общий вопрос касается присвоения текстов темам, учитывая некоторый список тем.

Простые / наивные подходы предпочтительнее, чем полностью байесовские, но я открыт.

Это было полезно?

Решение

Вы ищете систему распознавания именованных объектов или короткий NER , Существует несколько хорошо наборы инструментов , которые могут вам помочь. В частности, у LingPipe есть очень достойный учебник . CAGEclass , кажется, ориентирован на NER по географическим названиям мест, но я еще не использовал его.

Вот хороший запись в блоге о трудностях NER с географическими названиями мест.

Если вы собираетесь использовать Java, я бы порекомендовал использовать классы NER LingPipe. OpenNLP также имеет некоторые, но у первого есть лучшая документация.

Если вам нужна теоретическая справка, Чавес и соавт. (2005) создали интересный синтаксис и задокументировали его.

Другие советы

Скрытое семантическое сопоставление выглядит потенциально подходящим вариантом. Это примерно такой же наивный алгоритм, какой вы можете найти.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top