Clustering-Algorithmus mit diskreten und kontinuierlichen Attributen?

https://stackoverflow.com/questions/829644

06-07-2019
|

Frage

Kennt jemand einen guten Algorithmus für die Clustering Attribut auf beide diskreten und kontinuierlichen durchführen? Ich arbeite an einem Problem, eine Gruppe von ähnlichen Kunden zu identifizieren und jeder Kunde hat sowohl diskrete und kontinuierliche Attribute (Denken Art von Kunden, die Höhe der Einnahmen durch diese Kunden generierte, geographische Lage und etc ..)

Traditionell Algorithmus wie K-Mittel oder EM Arbeit für die kontinuierliche Attribute, was passiert, wenn wir eine Mischung von kontinuierlichen und diskreten Attribute haben?

Lösung

Wenn ich mich richtig erinnere, dann COBWEB Algorithmus mit diskreten Attributen arbeiten könnte.

Und Sie tun können, auch andere ‚Tricks‘ zu den diskreten Attributen, um aussagekräftige Abstandsmetriken zu erstellen.

Sie könnten Google für das Clustering von kategorischen / diskreten Attributen, einer der ersten Hits:

Andere Tipps

R ist ein großes Werkzeug für das Clustering - der Standardansatz eine Unähnlichkeit Matrix auf gemischte Daten zu berechnen wäre mit daisy , dann Clustering mit dieser Matrix mit agnes .

Der cba Modul auf CRAN enthält eine Funktion zum Cluster auf binäre Prädiktoren basierend auf ROCK.

Sie auch unter Affinität Ausbreitungs als eine mögliche Lösung. Aber zu überwinden, um das kontinuierliche / diskrete Dilemma müssen Sie eine Funktion definieren, die die diskreten Zustände Werte.

Ich würde tatsächlich vorhandenen Paare der diskreten Attribute zu Benutzern und sie bitten, ihre Nähe zu definieren. Sie würden sie mit einer Skala erreichen von [synonym..very ausländischen] oder ähnliche präsentieren. Nachdem dies viele Menschen werden Sie mit einer weithin akzeptierten Nähe Funktion für die nichtlineare Attributwert enden.

Wie wäre es jedes Ihrer kategorische Attribute in eine Reihe von N-1 binären Indikator Attribute Transformation (wobei N die Anzahl der Kategorien ist)? Sie sollten keine Angst vor hohen Dimensionalität sein, als eine spärliche Darstellung (wie Mahout des SequentialAccessSparseVector eingesetzt werden). Sobald Sie das tun, können Sie ein klassisches K-Mittel verwenden, oder was auch immer Standard nur numerischer Clustering-Algorithmus.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow