Vous cherchez un algorithme qui regroupe les correctement grappes visuellement séparables

https://datascience.stackexchange.com/questions/13073

16-10-2019
|

Question

J'ai visualisé un ensemble de données en 2D après avoir employé PCA. Comme visualisation 2D montre la figure, il y a une bonne séparation entre les points (A, B). Maintenant, je veux utiliser une mesure qui peut séparer ces points (entre ces 2 composants PC pas dans le dataset principal) aussi. Je veux dire avoir une séparation entre ces composants PCA sans visualisation. J'ai utilisé quelques méthodes de clustering, mais elles soulèvent des faux positifs. Je veux dire qu'ils manquent de points cluster.

En outre, comme le montre l'histogramme, il existe un écart entre les points A, B. Est-ce que cette aide à l'élaboration de toute mesure?

Je serai très reconnaissant si vous pouvez me présenter toute méthode et algorithme pour être en mesure de faire la séparation entre A et B.

La solution

Avec les paramètres appropriés, dbscan et le regroupement hiérarchique de liaison unique devrait fonctionner très bien. Epsilon = 0,2 ou plus.

Mais pourquoi? Vous connaissez les données, juste utiliser un seuil .

Si vous voulez juste un algorithme de « confirmer » votre résultat souhaité, vous utilisez mal. Soyez honnête: si vous voulez que votre résultat soit « si $ F-facteur-1> 1.5 puis cluster1 autre Cluster2 », puis juste dire si, au lieu d'essayer de trouver un algorithme de clustering pour s'adapter à votre solution désirée

Autres conseils

Cette image de scikit-learn peut vous aider à obtenir un aperçu quelles méthodes donnerait de bons résultats dans votre cas, et ce ne serait pas, et pourquoi.

Utilisation de k-means mise en grappes sur cet ensemble de données devrait fonctionner parfaitement bien. Il suffit de passer le (N_SAMPLES, 2) matrice où $ élément (i, j) $ représente la j-ième coordonnée échantillon i dans le PCA à tous les k-means, et indiquer que vous souhaitez 2 clusters, et euclidienne métrique.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange