Utilisez liblinear sur les grandes données pour l'analyse sémantique

https://datascience.stackexchange.com/questions/16

16-10-2019
|

Question

J'utilise libsvm pour former des données et de prédire le classement sur analyse sémantique . Mais il a un performances numéro sur des données à grande échelle, car les préoccupations d'analyse sémantique n dimensions problèmes.

L'année dernière, Liblinear a été communiqué, et il peut résoudre goulot d'étranglement. Mais il coûte trop cher mémoire . MapReduce la seule façon de résoudre le problème de l'analyse sémantique sur les grandes données? Ou y at-il d'autres méthodes qui peuvent améliorer goulot d'étranglement de mémoire sur Liblinear ?

Était-ce utile?

La solution

Notez qu'il existe une première version de LIBLINEAR porté Apache Spark . Voir commentaires quelques détails au début, et < a href = "http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/distributed-liblinear/"> site du projet .

Autres conseils

Vous pouvez consulter vowpal Wabbit . Il est très populaire pour l'apprentissage à grande échelle et comprend des dispositions parallèles.

De leur site web:

VW est l'essence de la vitesse dans l'apprentissage de la machine, capable d'apprendre des jeux de données terafeature avec facilité. Via l'apprentissage parallèle, il peut dépasser le débit d'une interface réseau machine unique lors de l'apprentissage faisant linéaire, un premier parmi les algorithmes d'apprentissage.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange