문제

나는 감정 분석을 가지고 놀고 있으며 일부 종자 데이터를 찾고 있습니다. 주변에 무료 사전이 있습니까?

"긍정적", "음수", "중립"에 대한 3 세트의 텍스트/문장 세트. 거대 할 필요는 없습니다.

결국 나는 아마도 내 특정 사용 사례에 대한 내 시드 데이터를 생성 할 것이지만, 내가 물건을 만들고있는 동안 지금 놀 수있는 것이 좋을 것입니다.

도움이 되었습니까?

해결책

Bing Liu와 Minqing Hu UIC에는 여러 데이터 세트가 있습니다.

보 팡 코넬에서 더 많은 것이 있습니다.

다른 팁

감정 사전에 관심이 있다면, 많은 저자들이 수동으로 제작 된 목록을 기반으로 작업을 제시했습니다. 좋은 접근법 중 하나는 그것을에서 파생시키는 것입니다 Wordnet 동의어 등과 같은 관계를 사용하여 긍정적/부정적인 단어의 핵심을 확장하여 데이터베이스.

수동으로 제작 된 목록의 좋은 예는 다음과 같습니다. 일반 지망생.

목록을 도출하는 반 자동 메소드의 경우 확인하십시오. sentiwordnet Esuli와 Sebastiani에서.

이것들은 일반적으로 연구에 사용할 수 있다고 생각하지만, 비방 연구 목적으로 이러한 리소스의 사용과 관련하여 저자와 연락을 취해야 할 수도 있습니다.

비.

Afinn Word 목록을 여기에서 사용할 수 있습니다.

http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010

Afinn은 마이너스 5 (음수)와 5 (양수) 사이의 정수가있는 원자가에 대한 영어 단어 목록입니다. 이 단어는 2009-2011 년에 Finn Åpry Nielsen이 수동으로 레이블을 지정했습니다. 파일은 탭으로 분리되어 있습니다. 두 가지 버전이 있습니다.

AFINN-1111 : 2477 단어와 문구가있는 최신 버전.

AFINN-96 : 1468 1480 줄의 독특한 단어와 문구. 일부 단어는 두 번 나열되므로 1480 줄이 있습니다. 단어 목록은 전적으로 알파벳 순서가 아닙니다.

나는 감정 분석을위한 코포라 목록과 단어 목록을 유지합니다 (내 afinn이 그 중 하나 인 곳).

http://neuro.compute.dtu.dk/wiki/sentiment_analysis#corpora

http://neuro.compute.dtu.dk/wiki/sentiment_analysis#affective_word_lists

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top