Matlabの：K平均クラスタリング

https://stackoverflow.com/questions/1373516

21-09-2019
|

質問

私は19個のクラスタにクラスタ化するA（369x10）のMATRICEを持っています。私はこの方法を使用する

[idx ctrs]=kmeans(A,19)

これは利回り IDX（369x1）とクリック率（19x10）

私はAの私の行が19個のクラスタにクラスタ化されているhere.Allにポイントを立ち上げます。

今は.Iが知りたい、配列B（49x10）を有する場合、所与の19個のクラスタ間で、このBの対応の行

どのようにMATLABで可能ですか？

事前にありがとうございます。

解決

私はあなたが説明したものよりも、それを行うには良い方法を考えることはできません。組み込み関数Aは、1行を保存するだろうが、私は1つを見つけることができませんでした。ここで私が使用するコードがあります：

[ids ctrs]=kmeans(A,19);
D = dist([testpoint;ctrs]); %testpoint is 1x10 and D will be 20x20
[distance testpointID] = min(D(1,2:end));

他のヒント

以下は、クラスタリングの完全な例です。

%% generate sample data
K = 3;
numObservarations = 100;
dimensions = 3;
data = rand([numObservarations dimensions]);

%% cluster
opts = statset('MaxIter', 500, 'Display', 'iter');
[clustIDX, clusters, interClustSum, Dist] = kmeans(data, K, 'options',opts, ...
    'distance','sqEuclidean', 'EmptyAction','singleton', 'replicates',3);

%% plot data+clusters
figure, hold on
scatter3(data(:,1),data(:,2),data(:,3), 50, clustIDX, 'filled')
scatter3(clusters(:,1),clusters(:,2),clusters(:,3), 200, (1:K)', 'filled')
hold off, xlabel('x'), ylabel('y'), zlabel('z')

%% plot clusters quality
figure
[silh,h] = silhouette(data, clustIDX);
avrgScore = mean(silh);


%% Assign data to clusters
% calculate distance (squared) of all instances to each cluster centroid
D = zeros(numObservarations, K);     % init distances
for k=1:K
    %d = sum((x-y).^2).^0.5
    D(:,k) = sum( ((data - repmat(clusters(k,:),numObservarations,1)).^2), 2);
end

% find  for all instances the cluster closet to it
[minDists, clusterIndices] = min(D, [], 2);

% compare it with what you expect it to be
sum(clusterIndices == clustIDX)

私はあなたの意味の権利を取得する場合知っているが、あなたが知りたい場合は、簡単にKnnSearch機能を使用することができます属しているあなたのポイントをクラスタ化していません。それは2つの引数を持ち、引数2に最も近いそれらの最初のもののための最初の引数に検索します。

あなたが乗ユークリッド距離メトリックを使用していると仮定すると、これを試してみてください

for i = 1:size(ctrs,2)
d(:,i) = sum((B-ctrs(repmat(i,size(B,1),1),:)).^2,2);
end
[distances,predicted] = min(d,[],2)

予測その後、最も近い重心のインデックスが含まれている必要があり、そして距離が最も近い重心までの距離が含まれている必要があります。

サブ関数で、関数kmeans関数内を見てみましょう「distfun」。この番組以上を行うにどのように、また、他の距離メトリックのための同等物が含まれています。

少量のデータのために、あなたが行うことができます。

[testpointID,dum] = find(permute(all(bsxfun(@eq,B,permute(ctrs,[3,2,1])),2),[3,1,2]))

は、これはやや不明瞭です。置換クリック率とbsxfunは、第2の寸法を横切る「全ED」、置換バックした後、行IDが発見されているブール値の49×10×19アレイを作成します。大量のデータのためにもう一度、おそらく実用的ではない。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow