ドキュメント画像の視点の推定については、アルゴリズムを理解できません

https://stackoverflow.com/questions/2679939

30-09-2019
|

質問

以下は論文です。テキストとノイズまたは非テキストオブジェクトを含むバイナリ画像の視点を推定することです。

アルゴリズムは隠されたマルコフモデルを使用します：実際には2つの条件t-テキストB-バックグルー（すなわちノイズ）

アルゴリズム自体を理解するのは難しいです。問題は、Hidden Markovモデルについて読んだことがあり、知られている必要がある確率を使用していることを知っているということです。しかし、このアルゴリズムでは、彼らがうーんを使用している場合、どのようにしてそれらの確率を取得するのか理解できません（たとえば、S1から別の状態に状態を変更する確率）？

その論文では、そこでのトレーニングについても何も見つかりませんでした。だから、誰かがそれを理解しているなら、教えてください。また、州の変更確率を知らずにHMMを使用することは可能ですか？

編集：HMMパラメーター（確率）を知らずに、推定を使用している場合があります

解決

おそらく、これは少しアカデミックすぎて、プログラミングよりも応用数学に関連していますか？

とにかく：うーん、伝統的に 訓練された （つまり、モデルのパラメーターの値、この場合は確率を学習します） 分類されています データ。を参照してください Baum Welchアルゴリズム. 。 2つのフェーズのこの分割：最初に学習（またはトレーニング）（分類されたラベルデータを使用）、分類（または実際の作業）（未分類のデータを使用）は多くのアルゴリズムの典型であり、それは呼ばれます 監視された分類.

一方、「既知」（分類された）データがない場合があるため、に頼る必要があります。 教師なし分類, 、モデルを学び、同時に分類しようとします。これははるかに制限されており、通常、モデルのパラメーターの多くの概要と削減を行うことを意味します（そのため、学習することはそれほど多くありません）。一見すると、これはその記事で取られた道のようです。彼らは完全に一般的なうーんとは考えていませんが、非常に制限されたものとは考えられておらず、モデルに適したフィットを見つけようとします。しかし、繰り返しますが、私はそれを真剣に読んでいません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow