Методы геотаггинга или гео-маркировки текстового контента
-
03-07-2019 - |
Вопрос
Какие есть хорошие алгоритмы для автоматической маркировки текста с указанием города / региона или происхождения? То есть, если блог о Нью-Йорке, как я могу сказать программно. Существуют ли пакеты / документы, которые утверждают, что делают это с какой-то степенью уверенности? Р>
Я рассмотрел некоторые подходы, основанные на tfidf, правильные пересечения существительных, но пока что никаких впечатляющих успехов нет, и я был бы признателен за идеи! Р>
Более общий вопрос касается присвоения текстов темам, учитывая некоторый список тем.
Простые / наивные подходы предпочтительнее, чем полностью байесовские, но я открыт.
Решение
Вы ищете систему распознавания именованных объектов или короткий NER , Существует несколько хорошо наборы инструментов , которые могут вам помочь. В частности, у LingPipe есть очень достойный учебник . CAGEclass , кажется, ориентирован на NER по географическим названиям мест, но я еще не использовал его.
Вот хороший запись в блоге о трудностях NER с географическими названиями мест.
Если вы собираетесь использовать Java, я бы порекомендовал использовать классы NER LingPipe. OpenNLP также имеет некоторые, но у первого есть лучшая документация.
Если вам нужна теоретическая справка, Чавес и соавт. (2005) создали интересный синтаксис и задокументировали его.
Другие советы
Скрытое семантическое сопоставление выглядит потенциально подходящим вариантом. Это примерно такой же наивный алгоритм, какой вы можете найти.