Puis-je identifier le contenu de la page intranet à l'aide d'entités nommées reconnaissance?
Question
Je suis nouveau traitement du langage naturel et je veux en savoir plus en créant un projet simple. NLTK a été suggéré d'être populaire en PNL, je vais donc l'utiliser dans mon projet.
Voici ce que je voudrais faire:
- Je veux scanner les pages intranet de notre entreprise; environ 3K pages
- Je voudrais analyser et classer le contenu de ces pages en fonction de certains critères tels que: HR, ingénierie, Pages d'entreprise, etc ...
D'après ce que j'ai lu jusqu'à présent, je peux le faire avec la reconnaissance d'entités nommées. Je peux décrire des entités pour chaque catégorie de pages, former la solution NLTK et exécuter chaque page par pour déterminer la catégorie.
Est-ce la bonne approche? Je vous remercie toutes les directions et idées ...
Merci
La solution
Le livre NLTK a un chapitre sur la classification de texte de base .
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow