Pregunta

¿Cómo obtener los mismos resultados que http://developer.yahoo. com / search / content / V1 / termExtraction.html

Esta pregunta se ha hecho unas cuantas veces antes.

Tratando de abordar este problema con las soluciones existentes tropecé sobre "Análisis de texto" Solr realiza en el documento antes de la indexación como se describe en http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -. que incluye derivados, así

Así que el índice final consistirá sobre todo de los términos utilizados para describir el documento.

¿Hay una solución que proporciona analizadores, tokenizers, y los filtros de fichas para su uso directo? Si Solr es la salida, lo que es la mejor manera de obtener estos datos del índice de Solr?

¿Fue útil?

Solución

Solr es una manera de crear un motor de búsqueda personalizado. No parece ser la herramienta adecuada para el trabajo. El acerca de las listas de extracción de términos en sus "enlaces externos" sección varias aplicaciones web para la extracción de términos . OpenNLP tiene una lista de herramientas que pueden ser útiles. Su Chunker pueden ser útiles.

Otros consejos

Solo pregunta por los términos analizados por ejemplo.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

TermsComponent para obtener más información.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top