analisi suddivisione in blocchi / testo utilizzando NLTK

https://stackoverflow.com/questions/1694941

18-09-2019
|

Domanda

Sto cercando di analizzare un testo e schema di esso, come si farebbe con una frase. Sono nuovo di NLTK e sto cercando di trovare qualcosa in NLTK che mi aiuterà a realizzare questo. Finora, ho visto nltk.ne_chunk e nltk.pos_tag. Trovo che siano non molto disponibile e io non sono riuscito a trovare nulla di buono documentazione in linea.

Inoltre ho cercato di usare il LancasterStemmer, ma non comprendere appieno ciò che fa o come dovrebbe essere usato o perché esiste ancora.

Qualcuno può please help me con questo? Sono davvero in perdita e diventando abbastanza frustrato senza luci guida.

Grazie in anticipo

Soluzione

Quello che si sta descrivendo è in realtà un compito davvero difficile, come alla fine, se il programma è riuscito o fallito è una misura del tutto soggettiva. Quando questo è il caso, in genere significa costruire un programma per risolvere il problema è difficile. Ci sono persone che vengono pagati per lavorare su questi problemi tipo di università.

Se si voleva avere una pugnalata a esso, io suggerirei di provare per usare un certo tipo sul automatizzato strumento di analisi lessicale piuttosto che cercare di analizzare manualmente e annotare, e quindi sfruttare il vostro albero sintattico. Solitamente analizzano-alberi rappresentano analisi sintattica, cioè la struttura della frase. È d'altra parte sono preoccupati piuttosto di analisi semantica, vale a dire che cosa significa -. O almeno se due frasi sono simili o differenti (che è in realtà un po 'più facile di quello che significa qualcosa)

Si potrebbe guardare in alcuni off-the-shelf strumenti riepilogo automatico. Questi cercano di segnare frasi da quanto siano importanti a un pezzo di testo e filtrare le frasi che sono meno importanti di una determinata soglia. Non che questo davvero aiuta più di tanto come avete ancora il problema di avere bisogno l'unione delle sintesi.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow