Pergunta

Eu tenho 100 Gb de documentos. Eu gostaria de caracterizá-la e ter uma noção geral do que temas são predominantes.

Os documentos são texto simples.

Eu tenho considerado usando uma ferramenta como o Google Desktop para pesquisar, mas ele é muito grande para realmente acho que o que procurar pedir e muito demorado para realizar pesquisas suficientes para cobrir todo o conjunto.

Existem algumas ferramentas livremente disponíveis, que irá se aglomeram um grande conjunto de dados de documentos?

Existem tais ferramentas que podem visualizar tais conjuntos?

Foi útil?

Solução

Para uma abordagem básica PNL, pode representar cada documento como um vector com base em frequências de palavras, então aglomerar os vectores de documentos utilizando Bayesiana ou outros métodos (SVM, k-meio, etc).

Para obter respostas relacionadas, ver este um pouco semelhante pergunta SO .

Outras dicas

Você precisa olhar para as ferramentas que fazem o processamento da linguagem natural. Basicamente, você pode muito determinar com fiabilidade (usando ferramentas estatísticas) o idioma de um documento (ver http: // en.wikipedia.org/wiki/N-gram ) eo domínio do discurso (veja http : //en.wikipedia.org/wiki/Support_vector_machine ). Algumas ferramentas devem estar disponíveis se você começar a partir de wikipedia.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top