Question

Je fais un projet sur le contenu du blog minier et je besoin d'aide sur l'outil de différenciation à des utilisations. Quand dois-je utiliser un analyseur, quand dois-je utiliser un tagueur, et quand dois-je besoin d'utiliser un outil de NER?

Par exemple, je veux savoir le plus parlé sur des sujets / sujets entre plusieurs blogs; dois-je utiliser une tagger partie du discours pour saisir les noms et faire un compte de fréquence? Ce serait probablement insuffisant parce que des termes très génériques peuvent apparaître à droite? Ou dois-je une liste des catégories et ces synonymes que je peux apparier?

BTW, j'utilise NLTK, mais je regarde stanford tagger ou analyseur depuis deux petits mecs dit qu'il était bon.

Était-ce utile?

La solution

Au lieu d'essayer de réinventer la roue, vous pouvez lire sur les modèles sujet, ce qui crée essentiellement des groupes de mots qui se produisent souvent ensemble. Mallet a une boîte à outils facilement disponible pour faire une telle tâche: http: //mallet.cs.umass. edu / topics.php .

Pour répondre à votre question initiale, POS tagger, parseurs et des outils de NER ne sont généralement pas utilisées pour l'identification sujet, mais sont plus largement utilisés pour des tâches telles que l'extraction de l'information dont le but est d'identifier dans un document les acteurs, des événements, lieux, horaires, etc ... Par exemple, si vous aviez une phrase simple comme « John a donné la pomme à Marie. » vous pouvez utiliser un analyseur de dépendance pour comprendre que John est le sujet, la pomme est l'objet, et Marie est l'objet prépositionnel; donc vous savez John est le donateur et Mary est le récepteur et non vice-versa.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top