離散および連続属性を持つクラスタリングアルゴリズム?
-
06-07-2019 - |
質問
離散属性と連続属性の両方でクラスタリングを実行するための優れたアルゴリズムを知っている人はいますか?私は類似の顧客のグループを識別する問題に取り組んでおり、各顧客は個別の属性と継続的な属性の両方を持っています(顧客の種類、この顧客によって生み出された収入の量、地理的位置など)。
K-meansやEMなどの従来のアルゴリズムは連続属性に対して機能しますが、連続属性と離散属性が混在している場合はどうなりますか?
解決
正しく覚えていれば、COBWEBアルゴリズムは個別の属性で機能します。
また、意味のある距離メトリックを作成するために、個別の属性に異なる「トリック」を行うこともできます。
最初のヒットの1つであるcategorical / discrete属性のクラスタリングをグーグルで検索できます: ROCK:カテゴリ属性のロバストなクラスタリングアルゴリズム。
他のヒント
また、可能な解決策としてアフィニティ伝播を調べることもできます。 しかし、連続/離散のジレンマを克服するには、離散状態を評価する関数を定義する必要があります。
実際には、個別の属性のペアをユーザーに提示し、ユーザーに近接性を定義するように依頼します。 [類義語..非常に異質な]またはそれに類するものから到達する尺度を提示します。多くの人がこれを行うと、非線形属性値に対して広く受け入れられている近接関数になります。
各カテゴリ属性を一連のN-1バイナリインジケータ属性(Nはカテゴリの数)に変換する方法は?
スパース表現(mahoutの SequentialAccessSparseVector
などを使用できる)として、高次元を恐れてはいけません。
これを行うと、古典的なK-meansまたは標準的な数値のみのクラスタリングアルゴリズムを使用できます。