Creazione di un nuovo corpus con NLTK

https://stackoverflow.com/questions/4951751

python
nlp
corpus
nltk

11-11-2019
|

Domanda

Ho ritenuto che spesso la risposta al mio titolo sia di andare a leggere le documentazioni, ma ho attraversato il Libro NLTK Ma non dà la risposta. Sono un po 'nuovo a Python.

Ho un sacco di .txt file e voglio essere in grado di utilizzare le funzioni corpus che NLTK fornisce per il corpus nltk_data.

ho provato PlaintextCorpusReader Ma non potevo andare oltre:

>>>import nltk
>>>from nltk.corpus import PlaintextCorpusReader
>>>corpus_root = './'
>>>newcorpus = PlaintextCorpusReader(corpus_root, '.*')
>>>newcorpus.words()

Come segmento il newcorpus frasi usando Punkt? Ho provato a usare le funzioni punkt ma le funzioni punkt non sono state leggere PlaintextCorpusReader classe?

Puoi anche portarmi a come posso scrivere i dati segmentati in file di testo?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow