문제

입력을 위해 numpy / scipy 배열이 필요한 scikit.learn을 사용하려고합니다. nltk에서 생성 된 기능 집합은 유니 그램 및 바이그램 주파수로 구성됩니다.수동으로 할 수 있지만 많은 노력이 필요할 것입니다.그래서 제가 간과 한 해결책이 있는지 궁금합니다.

도움이 되었습니까?

해결책

내가 아는 것은 아니지만 scikit-learn은 n -gram 빈도 계산 자체를 수행 할 수 있습니다.단어 수준 n -그램 가정 : 라코 디스

여기서 files는 문자열 또는 파일 류 객체의 목록입니다.그 후 X는 원시 주파수 카운트의 scipy.sparse 행렬입니다.

다른 팁

Jacob Perkins는 scikit-learn 분류기를 사용하여 NLTK 분류기를 훈련하기위한 다리를 만들었습니다. 여기에 소스가 있습니다.

https://github.com/japerk/nltk-trainer / blob / master / nltk_trainer / classification / sci.py

버전 0.9 이상을 사용하는 경우 패키지 가져 오기 행을 업데이트해야합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top