Корреляционная кластеризация в R

https://stackoverflow.com/questions/1468962

16-09-2019
|

Вопрос

Я бы хотел использовать correlation clustering и я полагаю , что R это хорошее место для начала.

Я могу представить эти данные R в виде набора больших разреженных векторов или в виде таблицы с предварительно вычисленной матрицей различий.

Мои вопросы таковы:

существуют ли существующие R функции, позволяющие превратить это в hierarchical cluster с agnes который использует correlation clustering?
придется ли мне реализовать (по общему признанию, простой) correlation clusteringфункционирует вручную, если да, то как мне заставить его хорошо играть с agnes?

Решение

По общему признанию, очень мало знаю об этой теме, но просто указать вам в направлении:

Вы смотрели на пакет кластера? У него очень хорошая документация. В частности, посмотрите на помощь (Agnes) для некоторых предложений. Мартин Мачлер (Член команды R Core) создал пакет и внес свой вклад в обсуждения переполнения Stack, так что, надеюсь, он даст ответ здесь.
Функция hclust () является частью пакета статистики. На самом деле, я считаю, что есть планы объединить hclust () и agnes ().
Вы также можете найти Эта страница из проекта BioConductor полезно.
В противном случае вам может повезло, глядя на другие пакеты на черепке Кластеризация, Обработка естественного языка или же Машинное обучение Просмотры.

Другие советы

Стандартный подход будет тот, который включает cor(), hclust() а также plot.hclust()Анкет Я очень рекомендую Heat Map.2 из замечательного пакета Gplots.

Легко использовать agnes функция в кластер Пакет с матрицей различий. Просто установите аргумент «дисс» на True.

Если вы можете легко вычислить матрицу различий вне R, то это может быть путь. В противном случае вы можете просто использовать cor Функция в R для генерации матрицы сходства (из которой вы можете получить матрицу различий, вычитая из 1).

Я отправился в http://www.rseek.org/ и ввел алгоритм agnes и обнаружил, что КЛАСТЕРНЫЙ пакет на CRAN содержит следующие сведения о функции AGNES.

Подробные сведения

агнес полностью описана в главе 5 Кауфмана и Руссео (1990).По сравнению с другими агломеративными методами кластеризации, такими как hclust, agnes обладает следующими особенностями:(a) это дает агломеративный коэффициент (см. agnes.object), который измеряет степень кластеризации найденная структура;и (б) помимо обычного дерева, он также предоставляет баннер, новое графическое отображение (см. plot.agnes).

Алгоритм agnes строит иерархию кластеризаций.Во-первых, каждое наблюдение-это небольшой кластер себя.Кластеры объединяются до тех пор, пока не останется только один большой кластер, который содержит все наблюдения.На каждом этапе два ближайших кластера объединяются, образуя один более крупный кластер.

Для метода="среднее" расстояние между двумя кластерами равно среднему значению различий между точками в одном кластере и точками в другом кластере.В методе="single" мы используем наименьшее различие между точкой в первом кластере и точкой во втором кластере (метод ближайшего соседа).Когда метод="complete", мы используем наибольшее различие между точкой в первом кластере и точкой во втором кластере (метод самого дальнего соседа ).

Кластеризация - довольно обширная тема, и вы найдете множество пакетов для R, которые реализуют ту или иную ее форму.Когда у вас есть и атрибуты, и ковариаты, сочетание кластеризации с упорядочением иногда может дать больше информации.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow