Domanda

Sto cercando di risolvere un semplice problema di classificazione.

Il problema:
    Ho una serie di testi e devo classificarli in base al contenuto.

Soluzione utilizzando Mahout:
    Ho capito che devo convertire l'ingresso a un file di sequenza per generare il modello. Sì, sono stato in grado di fare questo. Ora, come faccio a classificare miei dati di test? L'esempio 20News verifica solo per la correttezza. Ma, voglio fare la classifica attuale.
    Non sono sicuro se ho bisogno di scrivere codice o uso di alcune classi esistenti disponibili per classificare l'insieme di test.?

È stato utile?

Soluzione

Odio per collegare il mio lavoro, ma abbiamo messo un'intera sezione in Mahout in azione sulla classificazione. Teoria, esempi di codice, la pratica caso di studio, anche un intero implementazione server farm.

È possibile ottenere la versione pre-release a http://www.manning.com/owen/

Altri suggerimenti

Sto avendo un problema simile.

Esecuzione

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

sarà classificare un file di testo in base al modello.

Questo potrebbe ottenere un po 'più avanti, ma credo che, come me, si vuole classificare un intero carico di documenti e si desidera che l'output in un formato utile.

Potrebbe essere necessario programmare un po 'di Java per fare questo. Qualcuno ha un esempio che sembra che sarà fare quello che voglio a https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top