세그먼트 다국어 병렬 텍스트

https://stackoverflow.com//questions/23007052

21-12-2019
|

문제

여러 언어로 번역 된 메시지가 포함 된 다중 언어 텍스트가 있습니다. 예 :

English message
Russian message
Ukrainian message

주문이 정확하지 않습니다. Supervised / Surpervised Learning Algorithm을 자동으로 자동으로 해제하고 각 번역을 추출하여 데이터의 병렬 코퍼스를 생성하고자합니다.

서류 / 접근 방식을 제안 할 수 있습니까? Googling에 적합한 키워드를 얻을 수 없습니다.

해결책

문제에 대한 가장 기본적인 접근 방식은 단어의 가방을 생성하는 것입니다 문서에서.요약하려면 단어 가방은 각 행이 문서의 선이며 각 열은 명시된 각 열입니다.

예를 들어 문서가 다음과 같을 경우 다음과 같습니다.

hello world
привет мир
привіт світ

이 매트릭스가 있습니다.

     hello | world | привет | мир | привіт | світ
l1 | 1     |    1  |   0    | 0   |   0    | 0
l2 | 0     |    0  |   1    | 1   |   0    | 0
l3 | 0     |    0  |   0    | 0   |   1    | 1

사용자의 필요에 따라 분류 알고리즘 (예 : K- 의미 또는 SVM)을 적용 할 수 있습니다.

자세한 내용은 이 백서 기술에 대한 훌륭한 요약을 제공합니다.

다른 팁

언어 식별 소프트웨어를 사용하지 않는 이유는 무엇입니까?그들은> 90 % 정확도를보고하고 있습니다 :

langid.py https://github.com/saffsd/langid.py
textcat http://odur.let.rug.nl/~vannoord/textcat/
linguine http://www.jmis-web.org/articles/v16_n3_p71./index.html

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow