analisi suddivisione in blocchi / testo utilizzando NLTK
-
18-09-2019 - |
Domanda
Sto cercando di analizzare un testo e schema di esso, come si farebbe con una frase. Sono nuovo di NLTK e sto cercando di trovare qualcosa in NLTK che mi aiuterà a realizzare questo. Finora, ho visto nltk.ne_chunk
e nltk.pos_tag
. Trovo che siano non molto disponibile e io non sono riuscito a trovare nulla di buono documentazione in linea.
Inoltre ho cercato di usare il LancasterStemmer
, ma non comprendere appieno ciò che fa o come dovrebbe essere usato o perché esiste ancora.
Qualcuno può please help me con questo? Sono davvero in perdita e diventando abbastanza frustrato senza luci guida.
Grazie in anticipo
Soluzione
Quello che si sta descrivendo è in realtà un compito davvero difficile, come alla fine, se il programma è riuscito o fallito è una misura del tutto soggettiva. Quando questo è il caso, in genere significa costruire un programma per risolvere il problema è difficile. Ci sono persone che vengono pagati per lavorare su questi problemi tipo di università.
Se si voleva avere una pugnalata a esso, io suggerirei di provare per usare un certo tipo sul automatizzato strumento di analisi lessicale piuttosto che cercare di analizzare manualmente e annotare, e quindi sfruttare il vostro albero sintattico. Solitamente analizzano-alberi rappresentano analisi sintattica, cioè la struttura della frase. È d'altra parte sono preoccupati piuttosto di analisi semantica, vale a dire che cosa significa -. O almeno se due frasi sono simili o differenti (che è in realtà un po 'più facile di quello che significa qualcosa)
Si potrebbe guardare in alcuni off-the-shelf strumenti riepilogo automatico. Questi cercano di segnare frasi da quanto siano importanti a un pezzo di testo e filtrare le frasi che sono meno importanti di una determinata soglia. Non che questo davvero aiuta più di tanto come avete ancora il problema di avere bisogno l'unione delle sintesi.