peut NLTK / travail pyNLTK « par langue » (à savoir non-anglais), et comment?
Question
Comment puis-je dire NLTK pour traiter le texte dans une langue particulière?
Une fois dans un certain temps, j'écris une routine PNL spécialisée pour faire le marquage des points de vente, etc. tokenizing et sur un domaine de texte non anglais (mais toujours Hindo-européenne).
Cette question semble répondre que différents corpus, pas le changement dans le code / paramètres: POS allemand
Sinon, il existe des modules PNL spécialisés en hébreu / espagnol / polonais pour python?
La solution
Je ne sais pas ce que vous faites référence comme les changements dans le code / paramètres. NLTK repose essentiellement sur l'apprentissage de la machine et les « paramètres » sont généralement extraites des données de formation.
En ce qui concerne l'étiquetage POS les résultats et le marquage dépendra de la tagger vous utilisez / train. Si vous vous entraînez votre propre, vous devez bien sûr des données de formation espagnol / polonais. La raison pour laquelle ceux-ci pourraient être difficiles à trouver est le manque de matériel standard or public. Il existe des outils là-bas pour le faire faire, mais celui-ci n'est pas pour python ( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 ).