extraction Terme: balises Generatings sur le texte

https://stackoverflow.com/questions/1100549

11-09-2019
|

Question

Comment obtenir les mêmes résultats que http://developer.yahoo. com / recherche / contenu / V1 / termExtraction.html

Cette question a été posée plusieurs fois tout à fait avant.

Essayer d'aborder ce problème avec les solutions existantes je suis tombé sur « Analyse du texte » Solr effectue sur le document avant l'indexation comme décrit dans http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters -. qui comprend aussi bien issu

Ainsi, l'indice final sera composé principalement de termes utilisés pour décrire le document.

Y at-il une solution qui fournit des analyseurs, tokenizers et filtres jeton pour une utilisation directe? Si solr est la sortie, ce qui est la meilleure façon obtenir ces données de l'index solr?

La solution

Solr est un moyen de créer un moteur de recherche personnalisé. Il ne semble pas être le bon outil pour le travail. article de Wikipédia sur les listes d'extraction à long terme dans la section « Liens externes » plusieurs applications Web pour l'extraction à long terme . OpenNLP a une liste d'outils qui peuvent être utiles. Son Chunker peut être utile.

Autres conseils

Il suffit de demander les termes analysés par exemple.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1

Voir TermsComponent Pour de plus amples informations.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow