セグメント多言語並列テキスト
-
21-12-2019 - |
質問
私はいくつかの言語に翻訳されたメッセージを含む多言語テキストを持っています。 例えば:
English message
Russian message
Ukrainian message
.
注文は正確ではありません。 セグメンテーションを自動的に行うためにある種の監視/超えられた学習アルゴリズムを考案し、パラレルコーパスを作成するために各翻訳を抽出したいと思います。
あなたはどんな論文/アプローチも提案することができますか? 私はグーグルのための適切なキーワードを得ることができません。
解決
あなたの問題への最も基本的なアプローチは、単語の袋を生成することです。>あなたの文書から。まとめると、単語の袋は各行があなたの文書の行と各列の明確な用語である行列です。
たとえば、文書のようなものがこのような場合:hello world
привет мир
привіт світ
.
hello | world | привет | мир | привіт | світ
l1 | 1 | 1 | 0 | 0 | 0 | 0
l2 | 0 | 0 | 1 | 1 | 0 | 0
l3 | 0 | 0 | 0 | 0 | 1 | 1
.
ニーズに応じて、分類アルゴリズム(k平均またはSVMなど)を適用できます。
詳細については、この論文これはテクニックの素晴らしい要約を提供します。
GOUGLINGのキーワードについては、text analysis
、text mining
またはinformation retrieval
が良いスタートです。
他のヒント
何らかの言語識別ソフトウェアを試してみませんか?それらは報告しています> 90%の精度:
所属していません StackOverflow