Quali argomenti dovrei passare a dbscan o ottica per dividere i dati in modo specifico
-
02-11-2019 - |
Domanda
Ho migliaia di set di dati molto simili che devono essere divisi in modo diagonale a due gruppi. per esempio:e
Ho provato a giocare con l'argomento di DBSCAN e Optic come EPS e minpoint e persino metrica e nessuno di loro mi ha aiutato a dividere correttamente i dati a 2 gruppi. Sono riuscito a dividere i dati solo usando DBSCan se rimuovo il rumore tra questi gruppi per renderli 2 gruppi completi separati, l'ho fatto usando l'istogramma
j = 1
hist, bin_edges = np.histogram(data, bins=500)
max_bin = np.where(np.amax(hist) == hist)[0][0]
max_noise = bin_edges[max_bin+j]
filtered_indicies = data > max_noise
data = data[filtered_indicies]
Queste linee rimuovono il rumore dai dati, tra i gruppi e anche intorno a quando
J> 1
e questo mi fa rimuovere i dati necessari che devo riempire in seguito.
Quindi sto tornando indietro nella mia domanda principale, come posso sapere quali EPS, minpoint o altri argomenti di DBSCAN possono aiutarmi a dividere correttamente questi dati? O c'è forse un modo migliore di quello che ho presentato qui sopra (istogramma) per rimuovere il rumore tra questi gruppi senza rimuovere i dati necessari?
Nessuna soluzione corretta