監視された学習とラベル

https://datascience.stackexchange.com/questions/9573

16-10-2019
|

質問

のこれウィキページ、私は次のフレーズに出くわしました。

データがラベル付けされていない場合、監視された学習は不可能であり、監視されていない学習が必要です

監督された学習が不可能な理由を理解できませんか？

この曖昧さを解決するための助けに感謝します。

解決

監視されていない学習と監視されていない学習の主な違いは次のとおりです。

監視された学習では、ラベル付きデータのセットがあります。つまり、入力と出力の値があります。機械学習で達成しようとしているのは、 本当です それらの間の関係、私たちが通常呼んでいるもの モデル 数学で。機械学習には、データのモデルを取得できる多くの異なるアルゴリズムがあります。あなたが求める目的、および機械学習を使用する方法は、モデルを知ったら、新しい入力を考慮して出力を予測することです。

監視されていない学習では、ラベル付けされたデータはありません。入力はありませんが、出力はありません。そして、目的は、データに何らかのパターンを見つけることです。グループを見つけることができます クラスター あなたはそれが同じグループまたは出力に属していると思う。ここでは、モデルも取得する必要があります。繰り返しますが、あなたが求める目的は、新しい入力を考慮して出力を予測できることです。

最後に、質問に戻ると、ラベルがない場合は、監視された学習を使用できない場合は、監視されていない学習を使用する必要があります。

他のヒント

その文は誤解を招きます。これを見るためのより良い方法があります：

問題があるかどうか監督また 監督されない あなたが解決しようとしている問題の性質に依存します。で監督学習問題いくつかあります グラウンドトゥルース アルゴリズムを予測する必要があります。 グラウンドトゥルース 離散ラベル（分類）または連続ドメインの値（回帰）の値です。一方、an 監督されない 学習の問題は、ラベルや価値を「予測」しようとはしません。むしろ、それはより良いことを学ぼうとします表現また構造データの。クラスタリングと寸法の削減は両方ともの例です 監督されない 学習問題。

さて、あなたが監視された学習アルゴリズムを訓練するためには、あなたはそれに基本的な真実を提供する必要があります。ラベル付きデータの欠如はそうです いいえ 問題を監視せずに、それはあなたが必要なラベルのあるデータを取得するために努力を費やさなければならないことを意味するか、そうでなければあなたはあなたのアルゴリズムを訓練することができません。現実には、多くの場合、非現実的または高価すぎると、すべてのデータのラベル/ターゲット値を取得するには高すぎます。したがって、クラスもあります 半監視アルゴリズム 特定の仮定が適用された場合、ラベル付きデータと非標識データの両方を使用して、監視した学習を行います。

要するに、問題が監督されているかどうかは、問題の性質に依存します。いくつかの問題では、学習アルゴリズムをトレーニングするためにデータをラベル付けする必要があります。 いいえ あなたが解決しようとしている問題の性質を変えます。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange