분류 알고리즘의 성능 측정

https://stackoverflow.com/questions/406518

03-07-2019
|

문제

내 손에 분류 문제가 발생했는데, 기계 학습 알고리즘 (Bayes 또는 Markovian은 아마도 분류기에서 독립적 일 것입니다). 여러 교육 사례가 주어지면 구현 된 분류기의 성능을 측정 할 수있는 방법을 찾고 있으며 데이터 과적으로 문제를 고려하여 문제를 해결합니다.

즉, n [1..100] 훈련 샘플을 주어지면, 샘플마다 훈련 알고리즘을 실행 하고이 동일한 샘플을 사용하여 피트니스를 측정하면 데이터과 적합 문제에 갇힐 수 있습니다. 분류기가 알게 될 것입니다. 훈련 사례에 대한 정확한 답변은 예측력이 많지 않으면 서 피트니스 결과를 쓸모 없게 만듭니다.

명백한 솔루션은 손으로 태그 된 샘플을 훈련 및 테스트 샘플에 분리하는 것입니다. 그리고 훈련을 위해 통계적으로 유의 한 샘플을 선택하는 방법에 대해 배우고 싶습니다.

백서, 책 포인터 및 PDFS는 대단히 감사합니다!

해결책

당신은 사용할 수 있습니다 10 배 교차 검증 이것을 위해. 분류 알고리즘 성능 평가에 대한 표준 접근 방식이라고 생각합니다.

기본 아이디어는 학습 샘플을 10 개의 서브 세트로 나누는 것입니다. 그런 다음 테스트 데이터에 하나의 하위 집합을 사용하고 기차 데이터에는 다른 서브 세트를 사용하십시오. 각 서브 세트에 대해 이것을 반복하고 마지막에 평균 성능을 계산하십시오.

다른 팁

브라운 스톤 씨가 말했듯이 10 배의 교차 검증이 아마도 가장 좋은 방법 일 것입니다. 최근에 사용한 여러 분류기의 성능을 평가해야했습니다. Weka. API와 다양한 분류기의 성능을 쉽게 테스트 할 수있는 API와 도구가 많이 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow