比較文字列距離に基づくハッシュ計算済み
-
28-09-2019 - |
質問
私は大きなリスト(200,000)の文字列きたいと思いますを比較しに与えられた文字列になります。指定された文字列が挿入されるユーザーですが間違っています。
何をつくろうと思いましたせっかけを作に計算済みのハッシュの各文字列に追加します。このハッシュで始まるフィールドをすべてなどの情報文字列の長さが分かりましたすべての文字。
私の質問は、このようになって存在するのか。確かにありましたがっきを避ける走行 Levenshtein距離 各文字列のリスト?
それとも、私はあの子オプションで"しんか?
解決
音のように使用したいファジィハッシュの並べ替えができます。多くのハッシュ機能が利用できないようなものです。定番の古い"SOUNDEX"アルゴリズムがることもある。
もえた場合の見積りの確率誤入力が低く、それが実際に細を直撃を99.9%の下落に戻SOUNDEXるから90%の場合、その探索のリストに残りの0.01%ます。
所属していません StackOverflow