質問

一部の英語テキストの統計情報を生成していますが、「a」などの意味のない単語をスキップしたいと思います。および" the"。

  • これらの興味のない単語のリストはどこにありますか?
  • これらの単語のリストは、英語で最も頻繁に使用される単語のリストと同じですか?

更新:これらは明らかに「ストップワード」と呼ばれます。 " skip words"ではありません。

役に立ちましたか?

解決

Googleに入力するマジックワードは「ストップワード」です。これにより、合理的な外観のリストが表示されます。

MySQLには、ストップワードの組み込みリスト、しかしこれは私の好みにはあまりにも包括的です。たとえば、私たちの大学図書館では、「第三」が原因で問題が発生しました。 「第三世界」でストップワードと見なされました。

他のヒント

使用している英語のサブドメインによっては、独自のストップワードリストをコンパイルする必要がある場合があります。いくつかの一般的なストップワードは、ドメイン内で意味があります。例えば。 「ある」という言葉は実際には一部のドメインの略語/頭字語です。逆に、一般的な英語のドメインでは無視したくないドメイン固有の単語をアプリケーションによっては無視したい場合があります。例えば。病院レポートのコーパスを分析している場合、「履歴」や「症状」などの単語はすべてのレポートに含まれており、有用ではない可能性があるため、単純なバニラ逆索引の観点から無視することをお勧めします。

それ以外の場合、Googleから返されるリストは問題ないはずです。 Porter Stemmerはこれを使用し、Lucene seachエンジンの実装これを使用

大きなテキストコーパスの単語の頻度に関する統計を取得します。頻度のあるすべての単語を無視>いくつかの番号。

こちらからドイツ語のストップワードリストを使用したと思いますしばらく前にlucene.netで検索アプリケーションを作成したとき。サイトには英語のリストも含まれており、サイト上のリストは明らかにluceneプロジェクトがデフォルトとして使用しているものです。

通常、これらの単語は最も頻繁にドキュメントに表示されます。 単語のグローバルリストがあると仮定します。

{ Word Count }

単語のリストで、単語を最高のカウントから最低の順に並べると、逆ログ関数であるグラフ(カウント(y軸)と単語(x軸)があります。単語は左側にあり、「ストップワード」の停止ポイントは最高の1次導関数が存在する場所になります。

このソリューションは、辞書での試みよりも優れています:

  • このソリューションは、言語に縛られない普遍的なアプローチです
  • この試みは、「ストップワード」とみなされる単語を学習します。
  • この試みにより、非常に類似したコレクションに対してより良い結果が得られ、コレクション内のアイテムに対して一意の単語リストが生成されます
  • ストップワードは後で再計算できます(これにより、キャッシュと、ストップワードが計算された時点から変化した可能性があるという統計的判断が可能になります)
  • これにより、時間ベースまたは非公式の単語と名前(スラングなど、またはヘッダーとして会社名を持つドキュメントの束がある場合)を削除することもできます

辞書の試行の方が優れています:

  • 検索時間ははるかに高速です
  • 結果は事前にキャッシュされます
  • 簡単
  • 他の人がストップワードを思いついた。
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top