r 임의의 숲은 가변적 중요성입니다

https://stackoverflow.com/questions/736514

09-09-2019
|

문제

R. Random Forests 패키지를 사용하려고 노력하고 있습니다.

나열된 변수 중요도 측정은 다음과 같습니다.

클래스 0에 대한 변수 X의 평균 원시 중요 점수
클래스 1에 대한 변수 X의 평균 원시 중요 점수
MeanDecreaseAccuracy
MeanDecreaseGini

이제 나는 이것이 그들의 정의를 알고있는 것처럼 이것들이 무엇을 의미하는지 알고 있습니다. 내가 알고 싶은 것은 사용 방법입니다.

내가 정말로 알고 싶은 것은이 값이 그들이 얼마나 정확한 지, 좋은 가치, 나쁜 가치, 최대 값과 최소값 등의 맥락에서만 의미하는 바입니다.

변수가 높은 경우 MeanDecreaseAccuracy 또는 MeanDecreaseGini 그것이 중요하거나 중요하지 않다는 것을 의미합니까? 또한 원시 점수에 대한 정보도 유용 할 수 있습니다. 나는 그들을 적용하는 것과 관련된이 숫자에 대해 알아야 할 모든 것을 알고 싶습니다.

'오류', '요약'또는 '순열'이라는 단어를 사용하는 설명은 랜덤 숲의 작동 방식에 대한 논의와 관련이없는 간단한 설명과 관련이 없습니다.

누군가가 라디오를 사용하는 방법을 설명하기를 원했던 것처럼, 라디오가 라디오 파도를 사운드로 변환하는 방법을 포함 할 것이라고 설명하지 않을 것입니다.

해결책

'오류', '요약'또는 '순열'이라는 단어를 사용하는 설명은 랜덤 숲의 작동 방식에 대한 논의와 관련이없는 간단한 설명과 관련이 없습니다.

누군가가 라디오를 사용하는 방법을 설명하기를 원했던 것처럼, 라디오가 라디오 파도를 사운드로 변환하는 방법을 포함 할 것이라고 설명하지 않을 것입니다.

WKRP 100.5 FM의 숫자가 파도 주파수의 성가신 기술 세부 사항에 들어 가지 않고 ""의미 "를 어떻게 설명 하시겠습니까? 랜덤 포리스트와 관련된 매개 변수 및 관련 성능 문제는 기술적 인 용어를 이해하더라도 머리를 잡기가 어렵습니다.

다음은 몇 가지 답변에 대한 내 사진입니다.

-클래스 0에 대한 변수 X의 평균 RAW 중요도 점수

-클래스 1에 대한 변수 X의 평균 RAW 중요도 점수

임의의 숲에서 단순화 웹 페이지, 원시 중요도 점수는 데이터를 성공적으로 분류하는 데 특정 예측 변수가 무작위보다 얼마나 도움이되는지를 측정합니다.

-MENDECREASEACCUCURACY

나는 이것이 단지 안에 있다고 생각한다 R 모듈, 그리고 모델 에이 예측 변수를 얼마나 많이 포함 시키면 분류 오류가 감소하는 양을 측정한다고 생각합니다.

-MENDECREASEGINI

지니 사회의 소득 분포 또는 트리 기반 분류에서 "노드 불순물"의 척도를 설명하는 데 사용될 때 "불평등"으로 정의됩니다. 낮은 지니 (예 : GINI에서 더 높은 자산)는 특정 예측 변수가 정의 된 클래스로 데이터를 분할하는 데 더 큰 역할을한다는 것을 의미합니다. 분류 트리의 데이터가 예측 변수의 값에 따라 개별 노드에서 분할된다는 사실에 대해 이야기하지 않고 설명하기가 어렵습니다. 나는 이것이 어떻게 더 나은 성능으로 해석되는지 분명하지 않습니다.

다른 팁

즉각적인 관심사의 경우 : 값이 높을수록 변수가 더 중요하다는 것을 의미합니다. 이것은 당신이 언급 한 모든 조치에 해당해야합니다.

임의의 숲은 당신에게 꽤 복잡한 모델을 제공하므로 중요도를 해석하는 것은 까다로울 수 있습니다. 변수가 수행하는 작업을 쉽게 이해하려면 RFS를 사용하지 마십시오. 대신 선형 모델 또는 (ensemble) 의사 결정 트리를 사용하십시오.

당신은 말했습니다 :

'오류', '요약'또는 '순열'이라는 단어를 사용하는 설명은 랜덤 숲의 작동 방식에 대한 논의와 관련이없는 간단한 설명과 관련이 없습니다.

당신이 파고 들고 임의의 숲에 대해 어떻게 배우지 않으면 위의 것보다 훨씬 더 많은 것을 설명하는 것은 매우 어려울 것입니다. 나는 당신이 매뉴얼 또는 Breiman 매뉴얼의 섹션에 대해 불평하고 있다고 가정합니다.

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

변수가 얼마나 중요한지 알아 내기 위해 임의의 정크 ( "영과"IT)로 채우고 예측 정확도가 얼마나 감소하는지 확인하십시오. MeanDecreaseaccuracy 및 MeanDecreasegini가 이런 식으로 작동합니다. 원시 중요도 점수가 무엇인지 잘 모르겠습니다.

무작위 숲에서는 해석 성이 어렵습니다. RF는 매우 강력한 분류기이지만 예측을 민주적으로 만듭니다. 이것은 변수의 임의의 하위 집합과 데이터의 임의의 하위 집합을 가져 와서 트리를 만들어 수백 또는 수천 개의 나무를 건설한다는 것을 의미합니다. 그런 다음 모든 선택되지 않은 데이터를 예측하고 예측을 저장하십시오. 데이터 세트의 미용을 잘 다루기 때문에 강력합니다 (즉, 무작위로 높은/낮은 값, 우연한 플롯/샘플, 동일한 4 가지 방법을 측정하는 등)를 부드럽게합니다). 그러나 상관 관계가 높은 변수가있는 경우 각 모델에 항상 포함되어 있지 않기 때문에 둘 다 중요해 보일 수 있습니다.

임의의 숲을 가진 잠재적 인 접근 방식 중 하나는 예측자를 휘젓고 일반 카트로 전환하거나 추론 기반 트리 모델을 위해 파티 패키지를 시험해 보는 것입니다. 그러나 데이터 마이닝 문제와 매개 변수에 대한 추론에 대해 조심해야합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow