Alla ricerca di un algoritmo che raggruppa correttamente cluster visivamente separabili

https://datascience.stackexchange.com/questions/13073

16-10-2019
|

Domanda

Ho visualizzato un set di dati in 2D, dopo che impiegano PCA. Come 2D mostra visualizzazione in figura, c'è una buona separazione tra i punti (A, B). Ora, io voglio usare una metrica che può separare questi punti (tra questi componenti 2 di PC non nel set di dati principale) anche. I media hanno separazione tra questi componenti PCA senza visualizzazione. Ho usato alcuni metodi di clustering, ma alzano i falsi positivi. Voglio dire che manca di cluster molti punti.

Inoltre, come mostrato nell'istogramma c'è un divario tra i punti A, B. Fa questo aiuto nell'elaborazione di qualsiasi metrica?

I sarà così grato se mi si può introdurre qualsiasi metodo e l'algoritmo di essere in grado di fare la separazione tra A e B.

Soluzione

Con parametri appropriati, DBSCAN e singolo legame gerarchico agglomerative clustering dovrebbero funzionare molto bene. Epsilon = 0.2 o giù di lì.

Ma perché? Sai i dati, solo utilizzare una soglia .

Se si desidera solo un algoritmo per "confermare" il risultato desiderato, allora lo si utilizza sbagliato. Siate onesti: se si desidera che il risultato di essere "se $ F-factor-1> 1,5 poi cluster1 altro cluster2", allora basta dirlo, invece di tentare di trovare un algoritmo di clustering per adattarsi alla soluzione desiderata

Altri suggerimenti

Questa immagine da scikit-learn può aiutare a ottenere la comprensione quali metodi avrebbe prodotto buoni risultati nel vostro caso, e che cosa no, e perché.

Utilizzando k-means algoritmo su questo insieme di dati dovrebbe funzionare perfettamente bene. Non vi resta che passare la matrice (N_SAMPLES, 2) dove elemento $ (i, j) $ rappresenta il j-esimo di coordinate di campione i nel PCA a qualsiasi algoritmo k-means, e specificare che si desidera 2 clusters, e euclidea metrica.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange