Uso LIBLINEAR de grandes volúmenes de datos para el análisis semántico

https://datascience.stackexchange.com/questions/16

16-10-2019
|

Pregunta

Libsvm para entrenar a los datos y predecir la clasificación en análisis semántico problema. Pero tiene un rendimiento en cuestión de datos a gran escala, debido a las preocupaciones de análisis semántico de n-dimensión problema.

El año pasado, LIBLINEAR era la liberación, y que puede resolver cuello de botella. Pero cuesta demasiado memoria . Es MapReduce la única manera de resolver el problema de análisis semántico de datos grande? O ¿hay otros métodos que pueden mejorar el cuello de botella de memoria en LIBLINEAR

Solución

Tenga en cuenta que hay una versión temprana de LIBLINEAR portado a Apache Spark . Ver lista de comentarios para algunos detalles tempranos, y el < a href = "http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/distributed-liblinear/"> sitio del proyecto .

Otros consejos

Se puede extraer de vowpal wabbit . Es muy popular para el aprendizaje a gran escala e incluye disposiciones paralelas.

Desde su página web:

VW es la esencia de la velocidad de aprendizaje de máquina, capaz de aprender de los conjuntos de datos terafeature con facilidad. A través del aprendizaje en paralelo, se puede superar el rendimiento de cualquier interfaz de red única máquina cuando se hace el aprendizaje lineal, un primero entre los algoritmos de aprendizaje.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange