我正在研究一个项目,当时我需要在巨大的文本中挑选最常见的短语。例如,说我们有三个句子如下:

  • 狗跳了起来 在女人上。
  • 狗跳了起来 走进汽车。
  • 狗跳了起来 上楼去。

从上面的示例中,我想提取”狗跳了起来“因为这是文本中最常见的短语。起初我想:“哦,让我们使用有向图[带有重复节点]的图形”::

定向图http://img.skitch.com/20091218-81II2FEMNFEMNFGFIPD9JTDG32M74F.PNG

编辑: :抱歉,我在将此图“ Over”,“”和“ UP”放置时犯了一个错误,所有这些都应该链接回“”。

我要维持每个节点对象中一个单词发生多少次(“将是6;“ dog”和“跳”,3;等)我们添加了更多示例,例如(请忽略不良语法:-):):

  • 狗上下跳动。
  • 狗跳了起来,没有狗从来没有跳过。
  • 狗快乐地跳了起来。

从那以后我们现在有问题”“将启动一个新的根节点(在与“ the”相同的级别上),我们不会识别”狗跳了起来“因为现在是最常见的短语。所以现在我想也许我可以使用一个无方向的图来映射所有单词之间的关系并最终选择常见的短语,但我不确定这是否可以工作,当您失去两个单词之间的秩序关系时。

因此,是否有人对如何在大量文本中识别常见短语以及我将使用哪种数据结构有任何一般想法。

谢谢,本

有帮助吗?

解决方案

查看此相关问题: 有哪些技术/工具可以在文本中发现常见短语? 也与 最长的常见子字符串问题.

我以前发布了这个,但我使用 r 对于我所有的数据挖掘任务,它非常适合这种分析。特别是看 tm 包裹。以下是一些相关链接:

更一般地,有大量的文本挖掘包 关于克兰的自然语言处理视图.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top