Creazione di un nuovo corpus con NLTK
Domanda
Ho ritenuto che spesso la risposta al mio titolo sia di andare a leggere le documentazioni, ma ho attraversato il Libro NLTK Ma non dà la risposta. Sono un po 'nuovo a Python.
Ho un sacco di .txt
file e voglio essere in grado di utilizzare le funzioni corpus che NLTK fornisce per il corpus nltk_data
.
ho provato PlaintextCorpusReader
Ma non potevo andare oltre:
>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()
Come segmento il newcorpus
frasi usando Punkt? Ho provato a usare le funzioni punkt ma le funzioni punkt non sono state leggere PlaintextCorpusReader
classe?
Puoi anche portarmi a come posso scrivere i dati segmentati in file di testo?
Nessuna soluzione corretta
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow