extracción de términos: Generatings etiquetas fuera de texto

https://stackoverflow.com/questions/1100549

11-09-2019
|

Pregunta

¿Cómo obtener los mismos resultados que http://developer.yahoo. com / search / content / V1 / termExtraction.html

Esta pregunta se ha hecho unas cuantas veces antes.

¿Qué es un simple manera de generar palabras clave de un texto?

Tratando de abordar este problema con las soluciones existentes tropecé sobre "Análisis de texto" Solr realiza en el documento antes de la indexación como se describe en http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -. que incluye derivados, así

Así que el índice final consistirá sobre todo de los términos utilizados para describir el documento.

¿Hay una solución que proporciona analizadores, tokenizers, y los filtros de fichas para su uso directo? Si Solr es la salida, lo que es la mejor manera de obtener estos datos del índice de Solr?

Solución

Solr es una manera de crear un motor de búsqueda personalizado. No parece ser la herramienta adecuada para el trabajo. El acerca de las listas de extracción de términos en sus "enlaces externos" sección varias aplicaciones web para la extracción de términos . OpenNLP tiene una lista de herramientas que pueden ser útiles. Su Chunker pueden ser útiles.

Otros consejos

Solo pregunta por los términos analizados por ejemplo.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

TermsComponent para obtener más información.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow