非標識サンプルの理論的治療

https://datascience.stackexchange.com/questions/9027

16-10-2019
|

質問

いくつかの肯定的な例といくつかの否定的な例を備えた典型的な監視された学習設定では、ラベル付けされたデータが学習に利益をもたらすことができ、ラベル付けされたデータではキャプチャされていない情報がいくつかあることは明らかです。たとえば、（大規模な）非標識データを破棄しない場合、データセットの平均値、境界、およびその他の幾何学的特性をはるかに高い精度で推定できます。

一方、ニューラルネットワークからSVMまでの最も一般的なMLアルゴリズムは、この情報を利用していません（少なくとも標準的で最も一般的な形式で）。私の質問：

監視された設定で非標識データが扱われる理論的枠組みはありますか？

これにアプローチするための半監視された方法を考えることができます（最初のクラスター、次にクラスターにラベルを付けます）。他にありますか？

解決

ニューラルネットワークモデルでは、使用できます自動エンコーダー.

自動エンコーダーの基本的なアイデアは、出力の入力ベクトルを単純にコピーするネットワークを作成することにより、機能の隠された層を学習することです。したがって、トレーニング機能とトレーニング「ラベル」は最初は同一であり、監視付きラベルは必要ありません。これはクラシックを使用して機能します三角圧縮され、できれば有用な派生機能のセットをキャプチャする徐々に小さなレイヤーを備えたネットワークアーキテクチャ。ネットワークの隠されたレイヤーは、より大きな監視されていないデータセットに基づいて表現を学習します。これらのレイヤーを使用して、通常の監視された学習ネットワークを初期化して、実際のラベルを使用してトレーニングします。

同様のアイデアは、aを使用したトレーニング前のレイヤーです制限付きボルツマンマシン, 、異なる原則に基づいていますが、非常によく似た方法で使用できます。

他のヒント

あなたはすでにあなたの質問に「半監視された」キーワードを落としました。確かに、半教師の学習はあなたの質問に対する答えです。お気に入りの検索エンジンまたはライブラリカタログでこの用語を検索して、半教師の学習のためのアルゴリズムについて調べてください。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange