Question

Comment puis-je extraire efficacement des mots-clés avec la pertinence d'une chaîne? Ma liste de mots-clés sont prédéfinis. Par exemple, dans un article sur Michelle Obama qui mentionne aussi Barack Obama, je veux extraire Michelle Obama et Barack Obama avec le Michelle Obama mot-clé obtenir une valeur de pertinence plus élevé (les deux Michelle Obama et Barack Obama sont présents dans ma liste de mots-clés).

Vérification de la chaîne pour le nombre d'occurrence de chaque mot clé ne semble pas très efficace. Mon application est développée en PHP, mais toute langue est ok, si je peux le faire efficacement.

J'ai essayé OpenCalais, mais il ne détecte pas la plupart de mes mots-clés. Est-il possible d'extraire des mots-clés en utilisant Lucene?

Était-ce utile?

La solution

Le paquet Lucene apache vous conviendra. Toutefois, si vous avez le titre et les paragraphes, vous pouvez filtrer les mots d'arrêt, donner des rangs plus élevés pour les mots du titre, puis les faire correspondre ou leurs formes dans les paragraphes .. vous pouvez consulter certains articles de résumé de texte pour mieux vous la programmation.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top