如何获得同样的结果 http://developer.yahoo.com/search/content/V1/termExtraction.html

这个问题已经问过好几次。

试图处理这个问题与现有的解决方案我偶然发现了"文本分析"Solr执行面前的文件的索引作为描述 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -其中包括制止。

所以最终指标将包括主要的术语,用来描述文件。

是否有一个解决方案,提供分析仪系统,并令的过滤器,用于直接使用?如果solr是出路,什么是最好的方式获得这种数据从solr的指数?

有帮助吗?

解决方案

Solr是一种创建一个定制搜索引擎。这似乎不是合适的工具的工作。的 维基百科条约术语的提取 列出了在其"外部链接"部分的若干网络应用程序期提取。 OpenNLP 有一系列的工具,这可能是有用的。 其Chunker 可能会有所帮助。

其他提示

只是要求分析方面,例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

看看 TermsComponent 更多的信息。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top