テキストコンテンツのジオタグまたはジオラベリングの方法
-
03-07-2019 - |
質問
都市/地域または起源でテキストに自動的にラベルを付けるためのいくつかの良いアルゴリズムは何ですか?つまり、ブログがニューヨークに関するものであれば、どのようにプログラムで伝えることができますか。ある程度の確実性でこれを行うと主張するパッケージ/論文はありますか?
いくつかのtfidfベースのアプローチ、固有名詞の交差を見てきましたが、これまでのところ、目を見張るような成功はありませんでした。アイデアに感謝します。
より一般的な質問は、トピックのリストを指定して、トピックにテキストを割り当てることです。
ベイジアンアプローチでは完全よりも単純で単純なアプローチが好まれますが、私はオープンです。
解決
名前付きエンティティ認識システム、または短いNERを探しています。 いくつか 優れた ツールキットが利用できます。 LingPipeには特にまともなチュートリアルがあります。 CAGEclass は、地理的な地名でNERを中心にしていますが、まだ使用していません。
こちら NERの地理的地名の難しさに関するブログエントリ。
Javaを使用する場合は、LingPipe NERクラスを使用することをお勧めします。 OpenNLPにもいくつかありますが、前者にはより良いドキュメントがあります。
何らかの理論的背景を探している場合は、 Chavez et al。 (2005)は興味深いシンテムを構築し、文書化しました。
他のヒント
潜在セマンティックマッピングは、潜在的に適切なようです。それはあなたが見つけそうなアルゴリズムと同じくらい素朴です。
所属していません StackOverflow