質問

「」で説明されている方法を実装して、検索エンジンのクエリ用のスペル修正ツールを構築しています。Web ユーザーの集合的な知識を活用する反復プロセスとしてのスペル修正".

高レベルのアプローチは次のとおりです。特定のクエリに対して、各ユニグラムとバイグラムの可能な修正候補 (特定の編集距離内のクエリ ログ内の単語) を考え出し、修正ビタビ検索を実行して、バイグラム頻度が与えられた場合に最も可能性の高い候補シーケンスを見つけます。シーケンスの確率が最大になるまで、このプロセスを繰り返します。

ビタビ検索への変更により、2 つの隣接する単語が両方とも信頼できる辞書内で見つかった場合、最大 1 つを修正できるようになります。これは、正確に綴られた単一単語のクエリが頻度の高い単語に修正されるのを避けるために特に重要です。

私の質問は、そのような辞書をどこで見つけるかです。英語で作成し、検索クエリに表示される可能性の高い固有名詞 (姓名、場所、ブランド名など) と一般的な英単語と一般的でない英単語を含める必要があります。正しい方向に押すだけでも役に立ちます。

また、これを読んでいて、この論文で提供されている方法論の改善に関する提案がある人がいたら、これが私にとって NLP への初めての取り組みであることを考慮して、同様に歓迎します。

役に立ちましたか?

解決

この目的に最適な辞書は、おそらく Google Web 1T 5 グラム データ セットです。

http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13

残念ながら、大学が LDC のメンバーでない限り、無料ではありません。

Python NLTK などのパッケージでコーパスを試すこともできますが、すでに検索クエリに関連しているため、目的には Google のコーパスが最適のようです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top