apprentissage supervisé et les étiquettes

https://datascience.stackexchange.com/questions/9573

16-10-2019
|

Question

cette page wiki , je suis tombé sur la phrase suivante.

Lorsque les données ne sont pas étiquetés, n'est pas possible un apprentissage supervisé, et un apprentissage non supervisé est nécessaire

Je ne peux pas comprendre pourquoi l'apprentissage supervisé n'est pas possible?

apprécierais toute aide pour résoudre cette ambiguïté.

La solution

La principale différence entre l'apprentissage supervisé et non supervisé est le suivant:

vous avez supervisé l'apprentissage d'un ensemble de données étiquetées, ce qui signifie que vous avez les valeurs des entrées et des sorties. Qu'est-ce que vous essayez de réaliser avec l'apprentissage de la machine est de trouver le vraie relation entre eux, ce que nous appelons habituellement le modèle en mathématiques. Il existe de nombreux algorithmes différents dans l'apprentissage de la machine qui vous permettent d'obtenir un modèle des données. L'objectif que vous cherchez, et comment vous pouvez utiliser l'apprentissage machine, est de prévoir la sortie donné une nouvelle entrée, une fois que vous connaissez le modèle.

Dans l'apprentissage non supervisé vous n'avez pas les données étiquetées. Vous pouvez dire que vous avez les entrées, mais pas les sorties. Et l'objectif est de trouver une sorte de modèle dans vos données. Vous pouvez trouver des groupes ou groupes que vous pensez qui appartiennent au même groupe ou à la sortie. Vous avez également d'obtenir un modèle. Et encore une fois, l'objectif que vous cherchez est d'être en mesure de prédire la sortie donné une nouvelle entrée.

Enfin, pour en revenir à votre question, si vous ne disposez pas d'étiquettes que vous ne pouvez pas utiliser l'apprentissage supervisé, vous devez utiliser l'apprentissage non supervisé.

Autres conseils

Cette phrase est trompeur. Voici une meilleure façon de le regarder:

si un problème est supervisé ou sans supervision dépend de la nature du problème que vous essayez de résoudre. Dans un supervisé problème d'apprentissage, il y a un certain vérité terrain vous voulez l'algorithme de prédire. vérité terrain pourrait être une étiquette discrète (classification) ou une valeur dans le domaine continue (régression). D'autre part, un sans supervision problème d'apprentissage ne cherche pas à « prédire » une étiquette ou de la valeur. Au contraire, il essaie d'apprendre une meilleure représentation ou Structure des données. Clustering et la réduction de la dimension sont deux exemples de sans supervision des problèmes d'apprentissage.

Maintenant, pour vous former un algorithme d'apprentissage supervisé, vous avez besoin de lui fournir la vérité au sol. Le manque de données marquées ne pas rendre le problème sans supervision, il ne signifie que vous devez dépenser l'effort pour obtenir les données nécessaires étiquetés, ou bien vous ne pouvez pas former votre algorithme. En réalité, il est souvent irréaliste ou trop coûteux pour obtenir des étiquettes / valeur cible pour toutes les données que vous avez. Par conséquent, il y a aussi une classe de algorithmes semi-supervisés qui ne l'apprentissage supervisé utilisant à la fois des données étiquetés et non étiquetés, lorsque certaines hypothèses s'appliquent.

En bref, si un problème est supervisée ou non dépend de la nature du problème. Certains problèmes vous oblige à avoir des données étiquetées afin de former votre algorithme d'apprentissage, et certains ne sont pas, mais ayant des données marquées devez ou non pas changer la nature du problème que vous essayez de résoudre.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange