Puis-je identifier le contenu de la page intranet à l'aide d'entités nommées reconnaissance?

StackOverflow https://stackoverflow.com/questions/4001785

  •  25-09-2019
  •  | 
  •  

Question

Je suis nouveau traitement du langage naturel et je veux en savoir plus en créant un projet simple. NLTK a été suggéré d'être populaire en PNL, je vais donc l'utiliser dans mon projet.

Voici ce que je voudrais faire:

  • Je veux scanner les pages intranet de notre entreprise; environ 3K pages
  • Je voudrais analyser et classer le contenu de ces pages en fonction de certains critères tels que: HR, ingénierie, Pages d'entreprise, etc ...

D'après ce que j'ai lu jusqu'à présent, je peux le faire avec la reconnaissance d'entités nommées. Je peux décrire des entités pour chaque catégorie de pages, former la solution NLTK et exécuter chaque page par pour déterminer la catégorie.

Est-ce la bonne approche? Je vous remercie toutes les directions et idées ...

Merci

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top