Question

Je recherche une bibliothèque de matrice Java pour effectuer une analyse des données et implémenter des algorithmes de clustering (comme K-means ou dbscan)

J'ai trouvé Colt et Colt parallèle (la mieux performante avec des ensembles de données grands et petits) mais apparemment ils ne prennent pas en charge les matrices de chaînes. Les entrées des ensembles de données sont censées être des matrices doubles.

Y a-t-il des suggestions?

Merci d'avance pour votre aide .

Était-ce utile?

La solution

Jettes un coup d'oeil à Elki. Il prend en charge les fonctions de distance arbitraire et a déjà une distance en cosinus. Il peut donc apparemment exécuter ces algorithmes sur les données de texte.

Notez que pour la plupart des applications, vous voudrez convertir vos données de chaîne en vecteurs TF-IDF, car la distance en cosinus est également définie sur des vecteurs numériques. Cependant, ces vecteurs sont généralement clairsemés, donc une manipulation optimisée pour les vecteurs clairsemés est payante.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top