어휘 분석을 통해 텍스트 문구의 "기분"결정

https://stackoverflow.com/questions/996853

13-09-2019
|

문제

나는 짧은 텍스트 문구에 점수 (긍정적, 부정 또는 중립)를 적용하려고합니다. 이모티콘을 구문 분석하고 사용량을 바탕으로 가정을하는 것이 부족하여, 나는 다른 시도를 잘 모르겠습니다. 누구나이 문제에 대한 어휘 분석을 수행하는 예, 연구 논문, 기사 등을 제공 할 수 있습니까?

나는 부사 사용, 구두점 오용/반복, 철자/문법 오류와 같은 것들이 거의 이진 의미 (좋은 또는 나쁜)에서 저자의 기분에 대한 괜찮은 지표가 될 수 있다고 생각합니다.

해결책

이것은이 문제를 긍정적이든 부정적으로 단순화 한 다음 가장 많은 엔트로피 결정 또는 확률의 중립적 인 질량에 따라 확실한 임계 값에 도달하지 않은 결정을 내릴 수있는 매우 명확한 이진 분류 작업처럼 들립니다.

가장 큰 장애물은 확률 론적 기계 학습 방법에 대한 교육 데이터를 얻는 것입니다. 당신은 고급 차별 모델링을위한 툴킷 또는 망치. 설명한 기능은 이러한 모델이 사용하는 입력에 맞게 포맷해야합니다.

교육 데이터를 얻으려면 아마존의 기계적 터크와 같은 종류의 유료 크라우드 소싱을하거나 친구의 도움으로 직접 할 수 있습니다. 당신은 필요합니다 많은 이것에 대한 데이터의. 능동적 학습, 앙상블 또는 부스트와 같은 접근 방식으로 데이터가 부족하여 모델의 예측 강도를 향상시킬 수 있지만 실제 데이터에 대해 최선을 다해 테스트하고 가장 잘 작동하는 것을 선택하는 것이 중요합니다. 실용적인 응용 프로그램.

이를위한 논문을 찾고 있다면 Google Scholar에서 '감정 분석'이라는 용어를 살펴 보는 것이 좋습니다. 계산 언어학 협회 회의 및 저널의 자유롭고 유용한 논문이 많이 있으며 언어 적 관점뿐만 아니라 알고리즘 적 관점에서 문제를 해결합니다. 나는 또한 그들의 아카이브를 찾아 볼 것입니다. 행운을 빕니다!

다른 팁

잘, 잠재적 의미 분석 (가지고있다 종이 또한) 당신이 말하는 것에 가장 가까운 잘 설립 된 조사 분야처럼 보입니다. '가치 지향적'이 적고 더 큰 문서에 더 집중하지만 여전히 문제와 관련이있을 수 있습니다.

정말 흥미로운 아이디어처럼 들립니다.

구두점이 당신이 사용할 수있는 하나의 지표라고 말하고 싶습니다 ...

? - 질문
!?!? (또는 일부 변형) 불신
! 바보 같은, 바보 같은 문구와 함께 ...- 분노
... - 망설임, 풍자

당신은 또한 일반적인 약어를 시도하고 선택할 수 있습니다 ...

ㅋㅋㅋ - 웃음 (긍정적)
WTF, OMG - 불신, 충격
IMO - 생각, 설명

이것은 분명히 당신이 찾고자하는 꽤 복잡한 일이지만 매우 흥미로운 것 같습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow