détection / extraction mot-clé efficace. ensemble de mots-clés prédéfinis
-
27-10-2019 - |
Question
Comment puis-je extraire efficacement des mots-clés avec la pertinence d'une chaîne? Ma liste de mots-clés sont prédéfinis. Par exemple, dans un article sur Michelle Obama qui mentionne aussi Barack Obama, je veux extraire Michelle Obama
et Barack Obama
avec le Michelle Obama
mot-clé obtenir une valeur de pertinence plus élevé (les deux Michelle Obama
et Barack Obama
sont présents dans ma liste de mots-clés).
Vérification de la chaîne pour le nombre d'occurrence de chaque mot clé ne semble pas très efficace. Mon application est développée en PHP, mais toute langue est ok, si je peux le faire efficacement.
J'ai essayé OpenCalais, mais il ne détecte pas la plupart de mes mots-clés. Est-il possible d'extraire des mots-clés en utilisant Lucene?
La solution
Le paquet Lucene apache vous conviendra. Toutefois, si vous avez le titre et les paragraphes, vous pouvez filtrer les mots d'arrêt, donner des rangs plus élevés pour les mots du titre, puis les faire correspondre ou leurs formes dans les paragraphes .. vous pouvez consulter certains articles de résumé de texte pour mieux vous la programmation.