Uso LIBLINEAR de grandes volúmenes de datos para el análisis semántico
-
16-10-2019 - |
Pregunta
Libsvm para entrenar a los datos y predecir la clasificación en análisis semántico problema. Pero tiene un rendimiento en cuestión de datos a gran escala, debido a las preocupaciones de análisis semántico de n-dimensión problema.
El año pasado, LIBLINEAR era la liberación, y que puede resolver cuello de botella. Pero cuesta demasiado memoria . Es MapReduce la única manera de resolver el problema de análisis semántico de datos grande? O ¿hay otros métodos que pueden mejorar el cuello de botella de memoria en LIBLINEAR
Solución
Tenga en cuenta que hay una versión temprana de LIBLINEAR portado a Apache Spark . Ver lista de comentarios para algunos detalles tempranos, y el < a href = "http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/distributed-liblinear/"> sitio del proyecto .
Otros consejos
Se puede extraer de vowpal wabbit . Es muy popular para el aprendizaje a gran escala e incluye disposiciones paralelas.
Desde su página web:
VW es la esencia de la velocidad de aprendizaje de máquina, capaz de aprender de los conjuntos de datos terafeature con facilidad. A través del aprendizaje en paralelo, se puede superar el rendimiento de cualquier interfaz de red única máquina cuando se hace el aprendizaje lineal, un primero entre los algoritmos de aprendizaje.