（人間）文書の言語

https://stackoverflow.com/questions/257125

05-07-2019
|

質問

ドキュメントがどの言語で書かれているかをおおよそ知る方法（プログラム、ライブラリ）はありますか？

i18n対応のCMS（Drupal）にインポートするための混合言語のテキストドキュメント（〜500K）があります。

完全に一致する必要はなく、推測だけが必要です。

解決

特定する必要があるすべての異なる言語のコーパスデータがある場合、これを行うには非常に簡単な方法があります。 n-gramモデリングと呼ばれます。 Lingua :: Identify はただし、これは既に実行されているため、独自に実装するのではなく、最善の方法です。

他のヒント

あなたの最善の策は、探している言語に固有のキーワード-記事、そのようなこと-を探すことです。＆quot; Un＆quot;たとえば、スペイン語とフランス語の両方で表示されますが、「une」はたとえば、「unos」はスペイン語であるのに対し、「フランス語」は識別可能です。発音区別記号も便利です-「＆＃241;」が表示されますスペイン語、おそらくポルトガル語で＆quot;＆＃231;＆quot;フランス語と他のいくつかの...そのようなこと。

編集-ポールのソリューションはおそらく最高です。それは私が概説したようなメソッドに加えていくつかの追加を使用しているように見えます。

＆quot; ドキュメントの言語を決定＆quot;私はあなたを助ける多くの異なるサイトを見つけました。最初のページの3番目のリンクは、最終的に関数につながりました。まさに必要なGoogle Code API。

Google Translation APIはクールで、RESTインターフェイスを備えています。しかし、大量のBIGドキュメントを送信する必要があります（はい、抜粋を使用できます）。GoogleがGoogleであっても、これは考えていません公正。

ドキュメントも私のものではありません。Idをクライアントに第三者に送信してもよいかどうかを尋ねます（遅かれ早かれ、Gが取得しても;））。

Perlパスをたどって行くと思います...

このためのPerlモジュールがあるようです： Lingua :: Identify

ポール。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow