用語の抽出:テキストからタグを生成する
質問
と同じ結果を得る方法 http://developer.yahoo.com/search/content/V1/termExtraction.html
この質問はこれまでに何度も行われています。
既存のソリューションでこの問題にアプローチしようとすると、「テキスト分析」で説明されているように、Solr がインデックス付けの前にドキュメントに対して実行する「テキスト分析」に遭遇しました。 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters - これにはステミングも含まれます。
したがって、最終的なインデックスは、そのほとんどが文書を説明するために使用される用語で構成されます。
アナライザー、トークナイザー、トークン フィルターを直接使用できるソリューションはありますか?solr が解決策である場合、solr のインデックスからこのデータを取得する最良の方法は何ですか?
解決
Solrには、カスタム検索エンジンを作成する方法です。仕事のための適切なツールであるとは思われません。用語抽出のための「外部リンク」セクションのいくつかのWebアプリケーションにおける用語抽出のリストについては、 Wikipediaの記事。 OpenNLP には有用である可能性があるツールのリストを持っています。 そのチャンカには役に立つかもしれません。
他のヒント
ただ、解析された用語例えばをお願いします。
http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1
TermsComponentするを参照してください。 詳細はます。
所属していません StackOverflow