Pregunta

En un entorno de aprendizaje supervisado típico con algunos ejemplos positivos y algunos negativos, está claro que los datos no etiquetados conllevan cierta información que puede beneficiar el aprendizaje y que no se captura en los datos etiquetados. Por ejemplo, uno puede estimar los valores medios, los límites y algunas otras características geométricas del conjunto de datos con una precisión mucho más alta si no descarta los datos (masivos) no etiquetados.

Por otro lado, los algoritmos ML más comunes de las redes neuronales a SVM no aprovechan esta información (al menos en su forma estándar, más común). Mi pregunta:

  • ¿Hay algún marco teórico en el que se traten los datos no etiquetados en el entorno supervisado?

Puedo pensar en formas semi-supervisadas de abordar esto (primer clúster y luego etiquetar los clústeres). ¿Hay algún otro?

¿Fue útil?

Solución

En un modelo de red neuronal, puede usar autoencoders.

La idea básica de un autoencoder es aprender una capa oculta de características creando una red que simplemente copie el vector de entrada en la salida. Por lo tanto, las características de entrenamiento y las "etiquetas" de capacitación son inicialmente idénticas, no se requieren etiquetas supervisadas. Esto puede funcionar usando un clásico triangular Arquitectura de red con capas progresivamente más pequeñas que capturan un conjunto comprimido y con suerte útil de características derivadas. Las capas ocultas de la red aprenden representaciones basadas en el conjunto de datos no supervisado más grande. Estas capas se pueden usar para inicializar una red de aprendizaje supervisada regular para ser capacitados utilizando las etiquetas reales.

Una idea similar es la capacitación previa al uso de un Máquina Boltzmann restringida, que puede usarse de una manera muy similar, aunque se basa en diferentes principios.

Otros consejos

Ya dejaste caer la palabra clave "semi-supervisada" en tu pregunta. De hecho, el aprendizaje semi-supervisado es la respuesta a su pregunta. Busque este término con su motor de búsqueda favorito o catálogo de biblioteca para conocer los algoritmos para el aprendizaje semi-supervisado.

Licenciado bajo: CC-BY-SA con atribución
scroll top