期提取：Generatings标签的案文

题

这个问题已经问过好几次。

试图处理这个问题与现有的解决方案我偶然发现了"文本分析"Solr执行面前的文件的索引作为描述 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -其中包括制止。

所以最终指标将包括主要的术语，用来描述文件。

是否有一个解决方案，提供分析仪系统，并令的过滤器，用于直接使用？如果solr是出路，什么是最好的方式获得这种数据从solr的指数？

解决方案

Solr是一种创建一个定制搜索引擎。这似乎不是合适的工具的工作。的维基百科条约术语的提取列出了在其"外部链接"部分的若干网络应用程序期提取。 OpenNLP 有一系列的工具，这可能是有用的。其Chunker 可能会有所帮助。

其他提示

只是要求分析方面，例如

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

看看 TermsComponent 更多的信息。

许可以下： CC-BY-SA 和归因