テキストの大部分で一般的なフレーズを見つける方法
-
20-09-2019 - |
質問
私は、膨大なテキストで最も一般的なフレーズを選ぶ必要がある瞬間にプロジェクトに取り組んでいます。たとえば、次のような3つの文があるとします。
- 犬はジャンプしました 女性の上。
- 犬はジャンプしました 車に。
- 犬はジャンプしました 上の階。
上記の例から、私は抽出したい」犬はジャンプしました「それはテキストの中で最も一般的なフレーズであるため。最初は「繰り返しノードを備えた指示グラフを使用してみましょう」:
監督グラフhttp://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png
編集: :謝罪、私はこの図を「オーバー」、「イントゥ」、「アップ」して、すべて「」にリンクする必要があると間違いを犯しました。
私は各ノードオブジェクトで単語が発生した回数( "は6;" dog "と"ジャンプした "、3など)の数のカウントを維持するつもりでしたが、他の多くの問題にもかかわらず、主な問題は現れました。などの例をいくつか追加します(悪い文法を無視してください:-)):
- 犬は上下にジャンプしました。
- 犬は犬がこれまでジャンプしたことがなかったように跳ねました。
- 犬は喜んで跳ねました。
それ以来、私たちは今問題を抱えています」犬「新しいルートノード(「The」と同じレベル)を開始し、識別しません」犬はジャンプしました「今では最も一般的なフレーズであるように。だから今、私はすべての単語間の関係をマッピングして、最終的に一般的なフレーズを選ぶことができるかもしれないと考えていますが、これもどのように機能するのかわかりません。単語間の秩序の重要な関係を失うと。
そのため、大量のテキストで一般的なフレーズを識別する方法と、どのデータ構造を使用するかについて、誰もが一般的なアイデアを持っています。
ありがとう、ベン
解決
この関連する質問をご覧ください。 テキストのチャンクで一般的なフレーズを発見するためのテクニック/ツールは何ですか? にも関連しています 最長の一般的なサブストリング問題.
前に投稿しましたが、使用しています r 私のすべてのデータマイニングタスクについて、この種の分析に適しています。特に、を見てください tm
パッケージ。関連するリンクは次のとおりです。
- Journal of Statistical Computingのパッケージに関する論文: http://www.jstatsoft.org/v25/i05/paper. 。この論文には、Rデベルメーリングリストの分析の良い例が含まれています(https://stat.ethz.ch/pipermail/r-devel/)2006年のニュースグループの投稿。
- パッケージホームページ: http://cran.r-project.org/web/packages/tm/index.html
- 入門ビネットを見てください: http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
より一般的には、テキストマイニングパッケージが多数あります CRANの自然言語処理ビューについて.