Domanda

Sto lavorando a un grande progetto di classificazione di testi e abbiamo i nostri dati di testo (messaggi semplici) memorizzati nel HBase.

Abbiamo due problemi, in primo luogo vorremmo utilizzare HBase come origine per Mahout classificatori cioè Bayers e foreste casuali.

In secondo luogo, vorremmo essere in grado di memorizzare il modello generato in HBase invece di utilizzare l'approccio in memoria (InMemoryBayesDatastore) tuttavia come il nostro set di crescere ci sono in esecuzione in problemi con l'utilizzo della memoria e vorremmo prova viene HBase come Alternativa praticabile.

Sembra che ci sia poco materiale galleggianti intorno usando HBase con Mahout e se è possibile utilizzarlo come un potenziale origine dati. Sto utilizzando Mahout 0,6 nucleo API Java che ha il datastore InMemory.

Facendo un po 'di scavo I belive che (era) un componente HBase Bayers Datastore - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore Vedere più vecchio JavaDoc qui: http://www.jarvana.com /jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

Tuttavia, guardando la documentazione più recente sembra che questa caratteristica è scomparso ..? https://builds.apache.org/job/Mahout-Quality/javadoc/

Volevo sapere se era ancora possibile utilizzare HBase come datastource per Bayers e RandomForests e ci sono eventuali usi precedenti casi in questo?

Grazie!

È stato utile?

Soluzione

It's not directly possible, no. You can revive this old implementation, and dust it off and probably make it work without much trouble. It was indeed removed to slim down and focus the project.

You can of course also look at exporting your data, in some form, and adding it to a representation or store that is directly supported.

Generally speaking, you can use HBase with Mahout by virtue of the fact that Mahout uses Hadoop (mostly) and Hadoop can use HBase. That's not quite the situation here; there's a more direct integration point here, that has been deprecated.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top