どのような比較してしまいフレーズの類似性?

https://stackoverflow.com/questions/70560

09-06-2019
|

質問

入力すると、stackoverflowを示すリストの質問で考えるので、同じ話題です。いその他のサイトは、他のプログラムにもヘルプファイルシステムなど)でもそんなにプログラムのようなことです。今思うようなアルゴリズムも使用する。

最初のアプローチを思い付くのは分割は、言葉の言葉を探してフレーズを含む言葉です。先日ご寄付頂いたので、こうい捨て軽微であり語のように'を'、'a','は'など)、またランク。

こんにちは、待ちしているwebページ、そして...watchamacallit...-a"の検索エンジン"、そして販売広告、そして...

いいえ、真剣に、どのように共通なことがあります。

解決

その際の一つのアプローチは、いわゆるバッグの単語モデルです。

と推測され、最初にカウントをど多くの言葉が文字通常の文書のNLP-lingoスクリプト).そのまま捨てるのでストップワード"などの","a","か"です。

だと言語能となります。ことができないものはなく、包括的な言葉に表示されます。きを指標にこの言葉には:"aardvark"が1のときは、"apple"は2,...,"z-index"で70092.

現在十分に取ることができますが単語のバッグやしてほしい"というベクトル.例えば、お客様の文書が参考にaardvarks他には何もないかのようになります:

[2 0 0 ... 70k zeroes ... 0].

この後に数えることができるので、"角度"との間で二つのベクトルとのドット製品.規模の小さい角度に近づくにつれて文書ます。

この簡易版が他より高度な技術です。月の Wikipediaき.

他のヒント

@飯能実際に試したほうがよいでしょう、Levenshtein距離アルゴリズムです。された入力文字列 s リストの文字列 t 列の各文字列 u に t 戻りを最小限Levenshtein距離をいう。

http://en.wikipedia.org/wiki/Levenshtein_distance

見Javaの実装例 http://www.javalobby.org/java/forums/t15908.html

を増強し、バッグの単語：

ができる方法も注n-gram文字列の単語が多ければ多いほど保ちます。するためにあるからこそだと思い検索のための"スペースの複雑さ"がありますが、検索のためにも"空間"や"複雑さ"につながっていくことの意味にはこの言葉以上の和;この場合、結果を取得しこの複雑な宇宙と宇宙のであるとはいりませんの検索のための"スペースの複雑さ"という響きは、もの凄いうことを意味する。

キーの考えから自然言語処理ここでは、相互情報, ことができる(algorithmically)かどうかの判断はどうなフレーズは特定のフレーズなどの"スペースの複雑さは言葉だけでは偶然にも隣接しています。数学的には、メインアイデアは、probabilistically場合、これらの言葉がひどのように推測による周波数です。る場合、フレーズの高い相互情報の点検索クエリ(または割り出してデータ化しますので、良い結果が出せるように持ちにシーケンスです。

からなる小型）の開発経験の全文検索エンジン:私は見上げる問題が含まれている言葉のクエリ(お場合、クエリーはい。確かに、ノイズ単語は無視されたかチェックしたいクエリーのための強い言葉のように'ASP.Net"の絞り込み検索条件を構築します。http://en.wikipedia.org/wiki/Index_(search_engine)#Inverted_indices'>倒立型インデックスは一般的に用いて問題にする言葉に興味をもったかを記入します。

この問題からクエリをしていますが、いから距離を算出する単語と単語の間に私に質問なので問題は"フレーズの類似文字の位以上の質問と議論の類似度、聞いて下記のフレーズ...'です。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow