-
05-07-2019 - |
题
是否有办法(程序,库)大致知道文档的编写语言?
我有一堆混合语言的文本文档(~500K)可以在支持i18n的CMS(Drupal)中导入..
我不需要完美匹配,只需要一些猜测。
解决方案
有一种非常简单的方法可以做到这一点,因为你需要识别所有不同语言的语料库数据。它被称为n-gram建模。我认为 Lingua :: Identify 确实但这已经是,所以这是你最好的选择,而不是实现自己的。
其他提示
我想说你最好的办法是寻找关键词 - 文章,那种东西 - 这些都是你所寻找的语言所特有的。 "&的Un QUOT;例如,将以西班牙语和法语出现,但是“不”。例如,可识别的是法语,而“unos”可识别为西班牙语。变音符号也很有用 - 你会看到“ñ”用西班牙语和可能的葡萄牙语,“ç”在法语和其他一些......那种事情。
编辑 - 保罗的解决方案可能是最好的;看起来它使用了我概述的方法,加上一些额外的。
Google Translation API很酷,并且有一个REST界面。但我需要发送大量的大文件(是的,我可以使用摘录),即使谷歌是谷歌,我也不认为这 公平。
文件也不是我的,并且我问我的客户是否可以将它们发送给第三方(即使很快或更晚,G 将获得它们;)。)。 p>
我想我会通过Perl路径......
似乎有一个Perl模块: Lingua :: Identify
保罗。
不隶属于 StackOverflow