怎么是谷歌的图书流通道的功能开发出来的？

https://stackoverflow.com/questions/1154722

18-09-2019
|

题

我很好奇如果任何人都明白，知道或者可以指向我的全面文献或源代码在谷歌如何创建自己受欢迎的通道块的功能。但是，如果你知道任何其他应用程序，可以做同样的请后你的答案了。

如果你不知道我是什么书写这里是一个链接到的一个例子常喜欢的通道。当你看概述的书 模型的法律决定处理信息技术应用...通过Georgios N.Yannopoulos 你可以看到类似的东西:

受欢迎的通道

...方向，不确定的。我们不解决，因为我们没有预计，这个问题，这将提出的unenvisaged时的情况它发生；是否有一定程度的和平公园为牺牲或辩护的反对，这些儿童的快感，或者感兴趣是要用这些东西。时 unenvisaged情况下不会出现，我们面对的问题和可以然后解决这个问题通过选择之间的相互竞争的利益其最好的满足我们。在做... 86页

出现在15本书从1968-2003

这将是一个世界适合 "机械"的判例。明明白白这个世界不是我们的世界；人立法者可能没有这种知识所有可能的组合情况本来可能带。这种无法预测带来了一个相对的不确定性的目标。当我们大胆足够框架的一些一般规则行为(例如，一项规则，没有车辆可以考虑到公园)，语言的使用在这方面的修正必要的条件，任何东西必须满足... 86页

出现在8书1968-2000

更多

它必须是一个密集型模式匹配的过程。我只能想到的n-gram模式、文字语料库、自动plagisrism检测。但是，有时n-克是概率性的模型的预测中的下一个项目的顺序和文料库(据我所知)的手创建的。并且，在这种特定情况下，受欢迎的通道，可以有很多的话。

我真的丢失。如果我想要创造这样一个特征，如何或者我应该从哪里开始？此外，包括在你的反应是什么编程语言最适合于这种东西：F#或任何其他功能郎，PERL，蟒蛇，Java...(我成为一个F#风扇我自己)

PS:有人可以包括标记的自动剽窃检测，因为我不能

解决方案

阅读这ACM纸通过Kolak和Schilit，谷歌的研究人员开发了流行的通道。还有一些相关的幻灯片从这map/reduce课程Baldridge和租赁在奥斯汀的得克萨斯大学.

其他提示

在小的样本，我看看，它看起来像所有的通道挑进行内或阻止报价。只是猜想，但也许是谷歌的书看报价的标记/差异的格式和引用，然后使用分析版的文献目录的关联引用的来源。万岁式手册。

这种方法显然是没有帮助检测剽窃，是的小小的帮助，如果该语料库不是在一个格式，将保留文本格式。

如果你知道这本书都列举或引用其他书籍你不需要看看所有可能的书籍只有书籍，被援引。如果是科学参考往往线和页数都包含报价或可找到的参考书目：在结束这本书，因此，也许谷歌的分析只是这些信息?

Google学者肯定有关信息的理由是从纸张纸张也许从一本书的书了。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow