Domanda

Ho 100 Gb di documenti. Vorrei caratterizzare e ottenere un senso generale di quali argomenti sono prevalenti.

I documenti sono solo testo.

Ho pensato di utilizzare uno strumento come Google Desktop per la ricerca, ma è troppo grande per indovinare davvero cosa cercare e chiedere troppo tempo per eseguire ricerche sufficienti per coprire l'intero set.

Ci sono strumenti liberamente disponibili che CLUSTER un grande insieme di dati di documenti?

Ci sono tali strumenti in grado di visualizzare tali cluster?

È stato utile?

Soluzione

Per un approccio di base di PNL, si potrebbe rappresentare ogni documento come un vettore in base a frequenze di parole, poi si raggruppano i vettori del documento utilizzando bayesiano o altri metodi (SVM, k-means, ecc).

Per le risposte correlate, vedono questo in qualche modo simile domanda SO .

Altri suggerimenti

È necessario esaminare gli strumenti che fanno l'elaborazione del linguaggio naturale. Fondamentalmente si può piuttosto determinare in modo affidabile (utilizzando gli strumenti statistici) la lingua di un documento (vedere http: // en.wikipedia.org/wiki/N-gram ) e il dominio del discorso (vedi http : //en.wikipedia.org/wiki/Support_vector_machine ). Alcuni strumenti dovrebbero essere disponibili se si inizia da wikipedia.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top