如何在大量文本中找到常见的短语

题

我正在研究一个项目，当时我需要在巨大的文本中挑选最常见的短语。例如，说我们有三个句子如下：

从上面的示例中，我想提取”狗跳了起来“因为这是文本中最常见的短语。起初我想：“哦，让我们使用有向图[带有重复节点]的图形”：：

编辑: ：抱歉，我在将此图“ Over”，“”和“ UP”放置时犯了一个错误，所有这些都应该链接回“”。

我要维持每个节点对象中一个单词发生多少次（“将是6;“ dog”和“跳”，3;等）我们添加了更多示例，例如（请忽略不良语法:-)：）：

从那以后我们现在有问题”狗“将启动一个新的根节点（在与“ the”相同的级别上），我们不会识别”狗跳了起来“因为现在是最常见的短语。所以现在我想也许我可以使用一个无方向的图来映射所有单词之间的关系并最终选择常见的短语，但我不确定这是否可以工作，当您失去两个单词之间的秩序关系时。

因此，是否有人对如何在大量文本中识别常见短语以及我将使用哪种数据结构有任何一般想法。

谢谢，本

解决方案

我以前发布了这个，但我使用 r 对于我所有的数据挖掘任务，它非常适合这种分析。特别是看 tm 包裹。以下是一些相关链接：

更一般地，有大量的文本挖掘包关于克兰的自然语言处理视图.

许可以下： CC-BY-SA 和归因