質問

私はいくつかの言語に翻訳されたメッセージを含む多言語テキストを持っています。 例えば:

English message
Russian message
Ukrainian message
.

注文は正確ではありません。 セグメンテーションを自動的に行うためにある種の監視/超えられた学習アルゴリズムを考案し、パラレルコーパスを作成するために各翻訳を抽出したいと思います。

あなたはどんな論文/アプローチも提案することができますか? 私はグーグルのための適切なキーワードを得ることができません。

他のヒント

何らかの言語識別ソフトウェアを試してみませんか?それらは報告しています> 90%の精度:

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top