세그먼트 다국어 병렬 텍스트
-
21-12-2019 - |
문제
여러 언어로 번역 된 메시지가 포함 된 다중 언어 텍스트가 있습니다. 예 :
English message
Russian message
Ukrainian message
.
주문이 정확하지 않습니다. Supervised / Surpervised Learning Algorithm을 자동으로 자동으로 해제하고 각 번역을 추출하여 데이터의 병렬 코퍼스를 생성하고자합니다.
서류 / 접근 방식을 제안 할 수 있습니까? Googling에 적합한 키워드를 얻을 수 없습니다.
해결책
문제에 대한 가장 기본적인 접근 방식은 단어의 가방을 생성하는 것입니다 문서에서.요약하려면 단어 가방은 각 행이 문서의 선이며 각 열은 명시된 각 열입니다.
hello world
привет мир
привіт світ
.
hello | world | привет | мир | привіт | світ
l1 | 1 | 1 | 0 | 0 | 0 | 0
l2 | 0 | 0 | 1 | 1 | 0 | 0
l3 | 0 | 0 | 0 | 0 | 1 | 1
.
사용자의 필요에 따라 분류 알고리즘 (예 : K- 의미 또는 SVM)을 적용 할 수 있습니다.
자세한 내용은 이 백서 기술에 대한 훌륭한 요약을 제공합니다.
googling의 키워드와 관련하여 text analysis
, text mining
또는 information retrieval
가 좋은 시작입니다.
다른 팁
언어 식별 소프트웨어를 사용하지 않는 이유는 무엇입니까?그들은> 90 % 정확도를보고하고 있습니다 :
제휴하지 않습니다 StackOverflow