大きなテキスト内の名前を検索する
質問
データベースに保存されている大きなテキスト (5000 ワード以上) を解析して名前を検索する最良の方法は何ですか?テキストは多言語になります。
私の最初のアイデアは、大きな文字で始まるすべての単語を取得し、データベースと比較するというかなり単純なアプローチです。ただし、小文字のみを含むテキストでは失敗する傾向があります。
編集テキストは静的ではなく動的です (例:ウェブサイト)
最高
Mac
解決
のは、内蔵のフルテキストインデックス機能あなたのRDBMSを使用します。
Oracle Textのを使用してのフルテキストインデックス
他のヒント
あなたはエイホ - コラシック法を使用して、と辞書を構築することができますあなたが一致しようとしている名前。これは、テキストに加えてマッチした名前の数のトークンの数に線形です。
あなたは名前の辞書が必要になります。
それとも、かなり大規模なコレクションを知っている http://www.opencalais.com/ に試すことができます名前のます。
ここで、大きなテキスト内の複数の文字列を置換するメソッドを作成しました。 多くの文字列を置き換えるより良い方法 - C# の難読化. 。おそらく、同じ原理を使用できるでしょう。
所属していません StackOverflow