テキストの大部分で一般的なフレーズを見つける方法

https://stackoverflow.com/questions/1928997

20-09-2019
|

質問

私は、膨大なテキストで最も一般的なフレーズを選ぶ必要がある瞬間にプロジェクトに取り組んでいます。たとえば、次のような3つの文があるとします。

犬はジャンプしました 女性の上。
犬はジャンプしました 車に。
犬はジャンプしました 上の階。

上記の例から、私は抽出したい」犬はジャンプしました「それはテキストの中で最も一般的なフレーズであるため。最初は「繰り返しノードを備えた指示グラフを使用してみましょう」：

監督グラフhttp://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png

編集: ：謝罪、私はこの図を「オーバー」、「イントゥ」、「アップ」して、すべて「」にリンクする必要があると間違いを犯しました。

私は各ノードオブジェクトで単語が発生した回数（ "は6;" dog "と"ジャンプした "、3など）の数のカウントを維持するつもりでしたが、他の多くの問題にもかかわらず、主な問題は現れました。などの例をいくつか追加します（悪い文法を無視してください:-)）：

犬は上下にジャンプしました。
犬は犬がこれまでジャンプしたことがなかったように跳ねました。
犬は喜んで跳ねました。

それ以来、私たちは今問題を抱えています」犬「新しいルートノード（「The」と同じレベル）を開始し、識別しません」犬はジャンプしました「今では最も一般的なフレーズであるように。だから今、私はすべての単語間の関係をマッピングして、最終的に一般的なフレーズを選ぶことができるかもしれないと考えていますが、これもどのように機能するのかわかりません。単語間の秩序の重要な関係を失うと。

そのため、大量のテキストで一般的なフレーズを識別する方法と、どのデータ構造を使用するかについて、誰もが一般的なアイデアを持っています。

ありがとう、ベン

解決

この関連する質問をご覧ください。テキストのチャンクで一般的なフレーズを発見するためのテクニック/ツールは何ですか？にも関連しています最長の一般的なサブストリング問題.

前に投稿しましたが、使用しています r 私のすべてのデータマイニングタスクについて、この種の分析に適しています。特に、を見てください tm パッケージ。関連するリンクは次のとおりです。

Journal of Statistical Computingのパッケージに関する論文： http://www.jstatsoft.org/v25/i05/paper. 。この論文には、Rデベルメーリングリストの分析の良い例が含まれています（https://stat.ethz.ch/pipermail/r-devel/）2006年のニュースグループの投稿。
パッケージホームページ： http://cran.r-project.org/web/packages/tm/index.html
入門ビネットを見てください： http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

より一般的には、テキストマイニングパッケージが多数あります CRANの自然言語処理ビューについて.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow