R Случайные леса переменная важность

https://stackoverflow.com/questions/736514

09-09-2019
|

Вопрос

Я пытаюсь использовать пакет случайных лесов для классификации в Р.

Перечисленные меры переменной::

Средняя оценка необработанной важности переменной x для класса 0
Средняя оценка необработанной важности переменной x для класса 1
MeanDecreaseAccuracy
MeanDecreaseGini

Теперь я знаю, что это «значит», как я знаю их определения. Я хочу знать, как их использовать.

Что я действительно хочу знать, так это то, что эти значения означают только в контексте того, насколько они точны, какова хорошая ценность, что такое плохое значение, каковы максимумы и минимумы и т. Д.

Если переменная имеет высокий MeanDecreaseAccuracy или же MeanDecreaseGini Значит ли это, что это важно или неважно? Также любая информация о необработанных оценках также может быть полезна. Я хочу знать все, что нужно знать об этих цифрах, которые имеют отношение к их применению.

Объяснение, которое использует слова «ошибка», «суммирование» или «пересеканное», было бы менее полезным, чем более простое объяснение, которое не включало никакого обсуждения того, как работают случайные леса.

Например, если бы я хотел, чтобы кто -то объяснил мне, как использовать радио, я бы не ожидал, что объяснение включает в себя, как радио преобразует радиоволны в звук.

Решение

Объяснение, которое использует слова «ошибка», «суммирование» или «пересеканное», было бы менее полезным, чем более простое объяснение, которое не включало никакого обсуждения того, как работают случайные леса.

Например, если бы я хотел, чтобы кто -то объяснил мне, как использовать радио, я бы не ожидал, что объяснение включает в себя, как радио преобразует радиоволны в звук.

Как бы вы объяснили, что цифры в WKRP 100,5 FM «означают», не вдаваясь в надоедливые технические детали частот волн? Откровенно говоря, параметры и связанные с ними проблемы с производительностью со случайными лесами трудно понять, даже если вы понимаете некоторые технические термины.

Вот мой шанс на некоторые ответы:

-Манская необработанная оценка важности переменной x для класса 0

-Манская необработанная оценка важности переменной x для класса 1

Упрощение из случайного леса веб-страница, необработанная оценка значения измеряет, насколько более полезно, чем случайная переменная предиктора, успешно классифицирует данные.

-Meandecreaseaccuracy

Я думаю, что это только в R модуль, и я считаю, что это измеряет, сколько включения этого предиктора в модель уменьшает ошибку классификации.

-Meandecreasegini

Джини определяется как «неравенство» при использовании при описании распределения дохода общества или мерой «примеси узлов» в классификации на основе деревьев. Низкий Джини (то есть более высокий описание в Джини) означает, что конкретная переменная предиктора играет большую роль в разделении данных на определенные классы. Трудно описать, не говоря о том, что данные в деревьях классификации разделены на отдельных узлах на основе значений предикторов. Мне не так ясно, как это приводит к лучшей производительности.

Другие советы

Для вашей непосредственной озабоченности: более высокие значения означают, что переменные более важны. Это должно быть верно для всех упоминаний, которые вы упомянули.

Случайные леса дают вам довольно сложные модели, поэтому может быть сложно интерпретировать показатели важности. Если вы хотите легко понять, что делают ваши переменные, не используйте RFS. Вместо этого используйте линейные модели или (не имеющееся (не предъявляемое) дерево решений.

Вы сказали:

Объяснение, которое использует слова «ошибка», «суммирование» или «пересеканное», было бы менее полезным, чем более простое объяснение, которое не включало никакого обсуждения того, как работают случайные леса.

Будет очень сложно объяснить гораздо больше, чем выше, если вы не копаете и не узнаете, что насчет случайных лесов. Я предполагаю, что вы жалуетесь либо на руководство, либо в разделе из руководства Бреймана:

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

Чтобы выяснить, насколько важна переменная, они заполняют ее случайным мусором («промежуточный»), а затем посмотрите, насколько значительно снижается точность. Meandecreaseaccuracy и Meandecreasegini работают таким образом. Я не уверен, каковы необработанные оценки.

Интерпретируемость довольно жесткая со случайными лесами. В то время как RF является чрезвычайно надежным классификатором, он делает свои прогнозы демократически демократически. Под этим я подразумеваю, что вы строите сотни или тысячи деревьев, принимая случайное подмножество ваших переменных и случайное подмножество ваших данных и построить дерево. Затем сделайте прогноз для всех не выбранных данных и сохраните прогноз. Это надежно, потому что он хорошо справляется с капризами вашего набора данных (то есть он сглаживает случайно высокие/низкие значения, случайные графики/образцы, измеряя одно и то же 4 различных способа и т. Д.). Однако, если у вас есть некоторые сильно коррелированные переменные, оба могут показаться важными, поскольку они не всегда включены в каждую модель.

Один потенциальный подход со случайными лесами может заключаться в том, чтобы помочь в том, чтобы помочь вашим предикторам, а затем переключиться на регулярную корзину или попробовать партийный пакет для моделей деревьев, основанных на выводах. Однако тогда вы должны осторожно относиться к проблемам интеллектуального анализа данных и делать выводы о параметрах.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow