훈련 세트 - POS / NEG / 중립 문장의 비율

https://stackoverflow.com/questions/2058790

20-09-2019
|

문제

나는 트위터 메시지를 긍정적, 부정적, 중립으로 손으로 태그하고 있습니다. 나는 훈련 세트를 식별하는 데 사용할 수있는 논리가 있는지 이해하려고 노력하고 있습니다. 어떤 메시지가 긍정적 / 부정적이고 중립적이어야합니까?

예를 들어, 예를 들어, 1000 트위터 메시지가 포함 된 순진한 베이 에스 분류기를 훈련시키는 경우 POS : Negric Be 33 % : 33 % : 33 % 또는 25 % : 25 % : 50 %가되어야합니다.

논리적으로 내 머리 속에는 시스템이 중립 문장을 식별하는 데 더 나은 것이 더 긍정적이든 부정적인지를 훈련시키는 것 같습니다. 아니면 여기서 몇 가지 이론이 빠졌습니까?

고마워요 라훌

해결책

당신이 말하는 문제는 불균형 문제라고합니다. 많은 기계 학습 알고리즘은 불균형 교육 데이터에 직면했을 때, 즉 한 클래스의 사례가 다른 클래스의 사례보다 훨씬 많을 때 잘못된 성능을 발휘합니다. 읽다 이 기사 문제에 대한 좋은 개요와 접근 방법을 얻으려면. 순진한 베이 또는 의사 결정 트리와 같은 기술의 경우 예를 들어 임의의 오버 샘플링을 통해 데이터의 균형을 맞추는 것이 좋습니다 (참조 용지에 설명). 나는 훈련 세트가 실제 세계의 비율과 일치하도록 MJV의 제안에 동의하지 않습니다. 이것은 경우에 따라 적절할 수 있지만 그것이 당신의 설정에 있지 않다고 확신합니다. 설명하는 것과 같은 분류 문제의 경우 클래스 세트의 크기가 더 많이 다를수록 ML 알고리즘은 클래스를 올바르게 판별하는 데 문제가됩니다. 그러나 특정 인스턴스에 대한 분류기의 신뢰가 낮 거나이 인스턴스를 전혀 분류 할 수 없도록 할 수 있도록 분류기의 신뢰가 전혀 분류 할 수 있도록 폴백으로 취함으로써 현실에서 가장 큰 클래스에 대한 정보를 항상 사용할 수 있습니다. 가장 큰 클래스.

한 가지 더 언급 : 트위터 메시지에서 양성/부정/중립성을 찾는 것은 나에게 학위의 문제인 것 같습니다. 따라서 분류 문제가 아닌 회귀로 볼 수 있습니다. 즉, 세 가지 클래스 체계 대신에 당신이 말하는 점수를 계산하려는 세 클래스 체계 대신 어떻게 긍정적/부정적인 메시지입니다.

다른 팁

다른 많은 요소가 있지만 ... 적절한 비율과 훈련 데이터의 양을 결정할 때)는 실제 세계에서 각 메시지 범주 (양수, 중립, 부정)의 예상 분포입니다. 효과적으로, 훈련 세트를위한 좋은 기준 (및 제어 세트)입니다

질적으로] 전체 "인구"의 대표자로서
정량적으로] 그러한 세트로 이루어진 측정이 통계적으로 유의미 할 정도로 충분히 큽니다.

훈련 세트에서 특정 범주의 메시지의 [상대적] 풍부도의 효과는 결정하기 어렵다. 어쨌든 그것은 다른 요인에 매우 민감한 요인이 적습니다. 분류기의 정확도가 전체적으로 또는 특정 범주와 관련하여 일반적으로 분류기의 특정 구현과 더 관련이 있습니다 (예 : 베이지안, 토큰은 소음이 없어지고, 근접합니다. 요인, 우리는 Bi-Grams 등을 사용하고 있습니까? 정량적 훈련 세트의 특성.

위의 것은 일반적으로 사실이지만 훈련 세트의 크기와 구성을 선택하는 데 적당히 도움이되지만 결정 방법, 사실상, 훈련 데이터의 적절한 크기와 구성이 제공된 경우.
이를 달성하는 한 가지 방법은 컨트롤 세트, 즉 수동으로 레이블이 지정된 컨트롤 세트를 소개하는 것입니다. 이는 훈련 세트의 일부가 아니며 각 범주에 대해 얻은 리콜 및 정밀도의 다양한 서브 세트로 다른 테스트 실행을 측정하는 것입니다 (또는 일부 유사한 정확도 측정),이를 위해 제어 세트의 분류. 이러한 측정이 통계적으로 대표되는 것 외에도 이러한 측정이 개선되거나 저하되지 않는 경우, 훈련 [하위] 세트의 크기와 구성은 아마도 올바른 일일 것입니다 (과도한 적합 세트가 아니라면 또 다른 문제입니다. ..))

이 접근법은 효과적으로 필요한 훈련 서브 세트 크기의 3 ~ 5 배인 교육 세트를 사용하므로 다양한 테스트를위한 여러 가지 다른 서브 세트를 무작위로 구축 할 수 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow