Usa liblinear su grandi dati per l'analisi semantica

https://datascience.stackexchange.com/questions/16

16-10-2019
|

Domanda

Libsvm per addestrare i dati e prevedere la classificazione su analisi semantica problema. Ma ha un prestazioni problema su ampia scala di dati, perché le preoccupazioni semantiche di analisi n-dimensione problema.

Lo scorso anno, Liblinear era di rilascio, ed è in grado di risolvere collo di bottiglia. Ma costava troppo memoria . È MapReduce l'unico modo per risolvere semantica problema di analisi sui Big Data? O ci sono altri metodi che possono migliorare la memoria collo di bottiglia su Liblinear

Soluzione

Si noti che non v'è una prima versione di LIBLINEAR portato su Apache Spark . Vedere commenti per alcuni primi dettagli, e il < a href = "http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/distributed-liblinear/"> sito del progetto .

Altri suggerimenti

È possibile controllare vowpal wabbit . E 'molto popolare per l'apprendimento su larga scala e include disposizioni parallele.

Dal loro sito web:

VW è l'essenza della velocità in apprendimento automatico, in grado di imparare da dataset terafeature con facilità. Via di apprendimento parallelo, può superare il throughput di qualsiasi interfaccia di rete singola macchina quando si fa di apprendimento lineare, una prima tra algoritmi di apprendimento.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange