質問

私は、膨大なテキストで最も一般的なフレーズを選ぶ必要がある瞬間にプロジェクトに取り組んでいます。たとえば、次のような3つの文があるとします。

  • 犬はジャンプしました 女性の上。
  • 犬はジャンプしました 車に。
  • 犬はジャンプしました 上の階。

上記の例から、私は抽出したい」犬はジャンプしました「それはテキストの中で最も一般的なフレーズであるため。最初は「繰り返しノードを備えた指示グラフを使用してみましょう」:

監督グラフhttp://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png

編集: :謝罪、私はこの図を「オーバー」、「イントゥ」、「アップ」して、すべて「」にリンクする必要があると間違いを犯しました。

私は各ノードオブジェクトで単語が発生した回数( "は6;" dog "と"ジャンプした "、3など)の数のカウントを維持するつもりでしたが、他の多くの問題にもかかわらず、主な問題は現れました。などの例をいくつか追加します(悪い文法を無視してください:-)):

  • 犬は上下にジャンプしました。
  • 犬は犬がこれまでジャンプしたことがなかったように跳ねました。
  • 犬は喜んで跳ねました。

それ以来、私たちは今問題を抱えています」「新しいルートノード(「The」と同じレベル)を開始し、識別しません」犬はジャンプしました「今では最も一般的なフレーズであるように。だから今、私はすべての単語間の関係をマッピングして、最終的に一般的なフレーズを選ぶことができるかもしれないと考えていますが、これもどのように機能するのかわかりません。単語間の秩序の重要な関係を失うと。

そのため、大量のテキストで一般的なフレーズを識別する方法と、どのデータ構造を使用するかについて、誰もが一般的なアイデアを持っています。

ありがとう、ベン

役に立ちましたか?

解決

この関連する質問をご覧ください。 テキストのチャンクで一般的なフレーズを発見するためのテクニック/ツールは何ですか? にも関連しています 最長の一般的なサブストリング問題.

前に投稿しましたが、使用しています r 私のすべてのデータマイニングタスクについて、この種の分析に適しています。特に、を見てください tm パッケージ。関連するリンクは次のとおりです。

より一般的には、テキストマイニングパッケージが多数あります CRANの自然言語処理ビューについて.

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top