Puis-je identifier le contenu de la page intranet à l'aide d'entités nommées reconnaissance?

https://stackoverflow.com/questions/4001785

nlp
nltk

25-09-2019
|

Question

Je suis nouveau traitement du langage naturel et je veux en savoir plus en créant un projet simple. NLTK a été suggéré d'être populaire en PNL, je vais donc l'utiliser dans mon projet.

Voici ce que je voudrais faire:

Je veux scanner les pages intranet de notre entreprise; environ 3K pages
Je voudrais analyser et classer le contenu de ces pages en fonction de certains critères tels que: HR, ingénierie, Pages d'entreprise, etc ...

D'après ce que j'ai lu jusqu'à présent, je peux le faire avec la reconnaissance d'entités nommées. Je peux décrire des entités pour chaque catégorie de pages, former la solution NLTK et exécuter chaque page par pour déterminer la catégorie.

Est-ce la bonne approche? Je vous remercie toutes les directions et idées ...

Merci

La solution

Il semble que vous voulez faire , ce qui est pas tout à fait la même comme la reconnaissance d'entités nommées, dont le but est de reconnaître les entités nommées (noms propres, des lieux, des institutions, etc.) dans le texte. Cependant, les noms propres peuvent être très bonnes caractéristiques lors de la classification faisant texte dans un domaine limité, il est par exemple probable qu'une page avec le nom de l'ingénieur en chef pourrait être classé comme l'ingénierie.

Le livre NLTK a un chapitre sur la classification de texte de base .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow