Création d'un nouveau corpus avec NLTK
Question
J'ai estimé que souvent la réponse à mon titre est d'aller lire les documentations, mais j'ai couru à travers le Livre NLTK Mais cela ne donne pas la réponse. Je suis un peu nouveau à Python.
J'ai un tas de .txt
Fichiers et je veux pouvoir utiliser les fonctions de corpus que NLTK fournit pour le corpus nltk_data
.
J'ai essayé PlaintextCorpusReader
Mais je ne pouvais pas aller plus loin que:
>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()
Comment puis-je segmenter le newcorpus
phrases utilisant punkt? J'ai essayé d'utiliser les fonctions Punkt mais les fonctions Punkt n'ont pas pu lire PlaintextCorpusReader
classer?
Pouvez-vous également me conduire à la façon dont je peux écrire les données segmentées dans des fichiers texte?
Pas de solution correcte
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow