Domanda

Ho migliaia di set di dati molto simili che devono essere divisi in modo diagonale a due gruppi. per esempio:enter image description hereeenter image description here

Ho provato a giocare con l'argomento di DBSCAN e Optic come EPS e minpoint e persino metrica e nessuno di loro mi ha aiutato a dividere correttamente i dati a 2 gruppi. Sono riuscito a dividere i dati solo usando DBSCan se rimuovo il rumore tra questi gruppi per renderli 2 gruppi completi separati, l'ho fatto usando l'istogramma

j = 1
hist, bin_edges = np.histogram(data, bins=500)
max_bin = np.where(np.amax(hist) == hist)[0][0]
max_noise = bin_edges[max_bin+j]
filtered_indicies = data > max_noise
data = data[filtered_indicies]

Queste linee rimuovono il rumore dai dati, tra i gruppi e anche intorno a quando

J> 1

e questo mi fa rimuovere i dati necessari che devo riempire in seguito.

Quindi sto tornando indietro nella mia domanda principale, come posso sapere quali EPS, minpoint o altri argomenti di DBSCAN possono aiutarmi a dividere correttamente questi dati? O c'è forse un modo migliore di quello che ho presentato qui sopra (istogramma) per rimuovere il rumore tra questi gruppi senza rimuovere i dati necessari?

Nessuna soluzione corretta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top