문제

문서가 어떤 언어로 작성되었는지 거의 알 수있는 방법 (프로그램, 라이브러리)이 있습니까?

I18N 활성화 된 CMS (Drupal)에서 가져올 수있는 혼합 언어로 된 텍스트 문서 (~ 500k)가 많이 있습니다.

나는 완벽한 일치가 필요하지 않으며 약간의 추측 만 필요합니다.

도움이 되었습니까?

해결책

식별해야 할 모든 다른 언어로 코퍼스 데이터가 있다는 점을 감안할 때이 작업을 수행하는 매우 쉬운 방법이 있습니다. N- 그램 모델링이라고합니다. 제 생각에는 lingua :: 식별 그러나 이미이를 수행하므로 자신의 구현보다는 최선의 방법입니다.

다른 팁

나는 당신의 최선의 방법은 당신이 찾고있는 언어에 고유 한 핵심 단어, 기사, 그런 종류의 것을 찾는 것입니다. "Un"은 예를 들어 스페인과 프랑스어로 나타날 것이지만 "une"은 프랑스어를 식별 할 수있는 반면 "UNOS"는 스페인어를 식별 할 수 있습니다. Diacritics도 유용합니다. 스페인어와 포르투갈어로 "ñ", 프랑스어와 다른 몇 가지가 있습니다.

편집 - 바울의 해결책은 아마도 최고 일 것입니다. 내가 설명한 것과 같은 방법과 몇 가지 추가 방법을 사용하는 것처럼 보입니다.

Google 검색을 실행하여 "문서 언어를 결정하십시오"나는 당신을 도울 수있는 많은 다른 사이트를 찾았습니다. 첫 페이지의 세 번째 링크는 결국 나를 기능 Google 코드 API에서는 정확히 필요한 것입니다.

Google Translation API는 Cool이며 REST 인터페이스가 있습니다. 그러나 많은 큰 문서를 보내야합니다 (예, 발췌문을 사용할 수 있습니다). Google이라도 Google 이라도이 박람회라고 생각하지 않습니다.

문서도 내 것이 아니며, Id는 내 고객에게 제 3 자에게 보내는 것이 괜찮은지 물어보십시오 (곧 또는 그 후에도 G ~ 할 것이다 그들을 얻으십시오;)).

나는 Perl Path를 가로 질러 갈 것 같아 ...

이것에 대한 PERL 모듈이있는 것 같습니다. lingua :: 식별

폴.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top