Création d'un nouveau corpus avec NLTK

https://stackoverflow.com/questions/4951751

11-11-2019
|

Question

J'ai estimé que souvent la réponse à mon titre est d'aller lire les documentations, mais j'ai couru à travers le Livre NLTK Mais cela ne donne pas la réponse. Je suis un peu nouveau à Python.

J'ai un tas de .txt Fichiers et je veux pouvoir utiliser les fonctions de corpus que NLTK fournit pour le corpus nltk_data.

J'ai essayé PlaintextCorpusReader Mais je ne pouvais pas aller plus loin que:

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

Comment puis-je segmenter le newcorpus phrases utilisant punkt? J'ai essayé d'utiliser les fonctions Punkt mais les fonctions Punkt n'ont pas pu lire PlaintextCorpusReader classer?

Pouvez-vous également me conduire à la façon dont je peux écrire les données segmentées dans des fichiers texte?

Pas de solution correcte

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow