セグメント多言語並列テキスト

https://stackoverflow.com//questions/23007052

21-12-2019
|

質問

私はいくつかの言語に翻訳されたメッセージを含む多言語テキストを持っています。例えば：

English message
Russian message
Ukrainian message

注文は正確ではありません。セグメンテーションを自動的に行うためにある種の監視/超えられた学習アルゴリズムを考案し、パラレルコーパスを作成するために各翻訳を抽出したいと思います。

あなたはどんな論文/アプローチも提案することができますか？私はグーグルのための適切なキーワードを得ることができません。

解決

あなたの問題への最も基本的なアプローチは、単語の袋を生成することです。>あなたの文書から。まとめると、単語の袋は各行があなたの文書の行と各列の明確な用語である行列です。

たとえば、文書のようなものがこのような場合：

hello world
привет мир
привіт світ

この行列を持つことになる：

     hello | world | привет | мир | привіт | світ
l1 | 1     |    1  |   0    | 0   |   0    | 0
l2 | 0     |    0  |   1    | 1   |   0    | 0
l3 | 0     |    0  |   0    | 0   |   1    | 1

ニーズに応じて、分類アルゴリズム（k平均またはSVMなど）を適用できます。

詳細については、この論文これはテクニックの素晴らしい要約を提供します。

GOUGLINGのキーワードについては、text analysis、text miningまたはinformation retrievalが良いスタートです。

他のヒント

何らかの言語識別ソフトウェアを試してみませんか？それらは報告しています> 90％の精度：

langid.py https://github.com/saffsd/langid.py
textcat http://ofur.let.rug.nl/~vannoord/textcat/
Linguine > http://www.jmis-web.org/articles/v16_n3_p71/index.html

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow