Quelle est la chunker par défaut pour boîte à outils NLTK en Python?

https://stackoverflow.com/questions/1687510

18-09-2019
|

Question

J'utilise leur marquage par défaut de point de vente et par défaut tokenization..and il semble suffisant. Je voudrais leur chunker par défaut aussi.

Je lis le livre de boîte à outils NLTK, mais il ne semble pas qu'ils ont une chunker par défaut?

La solution

Vous pouvez sortir de la boîte entité nommée Chunking avec la méthode nltk.ne_chunk (). Il faut une liste des points de vente marqués tuples:

nltk.ne_chunk([('Barack', 'NNP'), ('Obama', 'NNP'), ('lives', 'NNS'), ('in', 'IN'), ('Washington', 'NNP')])

résultats dans:

Tree('S', [Tree('PERSON', [('Barack', 'NNP')]), Tree('ORGANIZATION', [('Obama', 'NNP')]), ('lives', 'NNS'), ('in', 'IN'), Tree('GPE', [('Washington', 'NNP')])])

Il identifie Barack comme une personne, mais Obama comme une organisation. Donc, pas parfait.

Autres conseils

Je ne pouvais pas trouver un analyseur chunker par défaut / faible profondeur soit. Bien que le livre décrit comment construire et former un avec des fonctions par exemple. Venir avec des fonctionnalités supplémentaires pour obtenir de bonnes performances ne devrait pas être trop difficile.

La section Voir le chapitre 7 sur Formation Chunkers à base classificateurs .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow