ファジィマッチングの構造化データ

https://stackoverflow.com/questions/2430037

19-09-2019
|

質問

私はかなり小さなコーパスの構造化記録座の改善に取り組んでいます。●指の小さな断片に含まれる情報の単一の記録を通じて提出されたウェブフォームで構成と同じようにテーブルのスキーマ),(お電話での試験の記録）を早急に作りのリストに記録を残して最も可能性の高いマッチの試験の記録とともに、信頼の見積りのうる検索条件に一致します。第一の目的この検索であるかどうかを人にしようとしているときに入力するため重複してのコーパスです。がこの試験の記録は、惑わり、合理的な機会の試験を記録すということではありません惑わ.

の記録は約12000バイトの総数の記録は約150,000.が110カラムのテーブルスキーマとして、95%の検索のトップ5%最も一般的に検索したい。

のデータであるもののように、氏名、住所、電話番号、その他の産業の特定の。両方のコーパスの試験の記録で入手ではsemistructured内の個人ます。が最初にチーク"ということを重量のカラムにより手と試合の単語トークンをわたしたち"で簡単にいかないのです。やっぱりそんな感じなんでもの場合を取得します電話番号と思いることを示します致しますので問題はありませんの単一フィールドを形成するトークン周波数は変動してはならないきません。電話番号が表示され、100回のコーパスは1時間のコーパスです。でも同じようなことがありますその他の分野です。この重みは、現場レベルで可能となる。私は、より細粒度アプローチにもマッチングです。

私は当初計画を達成するハッシュのハッシュ、トップレベルのfieldname.そうすべて選択の情報からコーパスのために与えられたフィールドとは、データに含まれるので、tokenize()の消毒データ、ハッシュトークンのレベル、トークンをキーとして、周波数などの値です。

混雑して待たされることは周波数として重さ:は、より高い周波数のトークンを参照のコーパスの少量を付けている場合、該当するトークンを生することができる試験です。

私の最初の質問は、統計専門家は、室：方法を教えてくださいをご利用周波数と体重を教えてください。はあるので精密な数学的関係nレコード数を、f(t)の周波数とのトークンのtに登場したコーパスの確率と、その記録のオリジナルではなく複製、確率pの試験の記録は記録xの試験とxが同じt同じす。方法との関係について複数のトークンの試合で複数の分野?

以来、私の間違いがあることがあるものがありがより完全に任意のハックの魔法の要因?

発着信規制"と、誰にでもたい。

私は特に熱心にその他のご提案を伴わない維持別のデータベース上のテーブルなど、トークン周波数のルックアップ。

解決

できるのではないでしょうかいアイデアここからでも質問計算-コンテキスト依存文相関.

具体的には問題は、これまでの思考やアイデア:

最初に、していることを認識しても斜めに使用する(6-10の属性をカバーの95%を使用）/適用すべきである非対称な力の属性、すなわち投資、長期プログラミングの時間の実行時のCPU割当増資を扱うこの数以上の数の属性のための100の数追加の属性です。

の比較的少量のデータとして供給され入力のためのマッチングを可能に重複データベースに、比較的小さなサイズの属性セット通常使用されるので共通の意味の電話番号、住所、氏名...)提案手作りのソリューションによ 完全に に基づく機械学習.

注意：多くの提案が、その後限をなすべての属性から以下十数種類のこれらのほとんどすべての利用、パスポートは、少なくとも最初の投資ものであります。

正常にデータ
許可されていない場合のためのおの独自のフィールド値はその複製に対応するカラムを"norm_xxx"coluumn xxxを入力してください。
何を、どのように正常化によって異なりますがそれぞれの属性;のための"無料"テキストのようなデータの確保が有力な後続スペース、単語と単語の間にスペース、タブ、非印刷可能な文字です。利用はすべて大文字はすべて小文字(eventhoughtのための表示テキストに含めることができるミックス、処理まで高速化できることと均一ケーシング).のために具体的にアドレスならびに社名を変換でき通る標準形(STた通り、セントセント等) (確認してくださいこのリストに対して応用されていくであろう、ユーザの検索条件としていた。の正常化にも落と完全に一部のノイズの言葉としてと言うと共に、会社末社名)
を数計算カラム
例えば、もとのテキスト、逆に、属性が検索されると、末尾にワイルドカード
使用を考慮してSoundexような変換のため一部の属性です。
FullTextインデックスを個別に、すべてのテキストのようなカラム
作成平SQL)を指標すべての6-10カラム数多く導入されています

上記のすべて、単なるオフライン時の準備を実際に行う。今..のユーザートクエ---ここにいくつかの例がありますアイデアに対してどのように対応するかで

正常に検索条件を保証す
走る複数の検索...
これは、ややトリッキーな機能である;があり、その一部は相反する目標のためこれらを検索するを抑えたい、大幅の可能性のある試合":で効果的に実行不可能なにあることを示すインターフェースに一本との比較の150,000記録のユーザによって提供された基準例えば、マッチングロジックの起算の編集距離のフィールドが指定されたレコードのデータベースの検索基準とします。してもいいはずせない記録からの可能性のあるマッチ"一覧で誰にも会社の名---最後にご提供していきたいリストのマッチに位にランクファッション。
の方がら、これらの検索は以下のも事前に定義されたヒューリスティックス(この戦略デザインパターンにとても適していることが可能flexibiltyの検索の実行によっては、ユーザによって提供された入力).このように検索しましたの選択的の単語の選択/関連する属性に基づくり"ヒット"を見てから"または"(ユニオン）"と"その他の検索結果までを数百します。
計算に共通の価値とそれぞれの属性の可能性のある試合"記録との対応を検索基準とします。が適用係数がこの値が可能であり重量という社名[分]と一致する都市ッチ)
タリーのoveral価値類似性、完全な記録(vsの検索条件)
ショーの記録を超える特定の閾値の類似度の値を、ユーザーのための見直し

最後に、あの部分的な自動化工程は、変更することが可能な一部のパラメータに基づくワイヤーグリッドは、グリッドに供給され、ユーザーです。(これは非常に難しいんこの他のポスト;-))

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow