Método básico para optimizar los hiperparámetros

https://datascience.stackexchange.com/questions/26239

31-10-2019
|

Pregunta

Recientemente leí la publicación del blog de Lipo en el blog de DLIB:http://blog.dlib.net/2017/12/a-global-optimization-algorithm-worth.html

Menciona que se puede usar para optimizar los hiperparámetros de algoritmos metaheurísticos por ejemplo, recocido simulado o algoritmos genéticos.

Busqué información sobre cómo funcionan la optimización de los hiperparámetros en general y la página de Wikipedia es la más informativa que encontré, pero no responde a mis preguntas básicas:https://en.m.wikipedia.org/wiki/hyperparameter_optimization

Mi pregunta es solo: ¿Cuál es la idea básica para optimizar los hiperparámetros?

Si tengo algún problema, estoy tratando de resolver con el recocido simulado, sé que la temperatura de inicio y la tasa de enfriamiento son importantes para determinar qué tan bien lo hace el algoritmo para encontrar una solución.

Sé que podría ejecutar completamente el algoritmo con un conjunto de parámetros, modificar uno de los parámetros, ejecutarlo completamente nuevamente, luego restablecer los parámetros y modificar el otro parámetro y ejecutarlo nuevamente. Esto podría darme un gradiente numérico que podría usar para modificar los parámetros a través del descenso de gradiente.

Sin embargo ... en este punto tuve que ejecutar todo el algoritmo 3 veces solo para obtener una única modificación de los hiperparámetros.

Siento que me falta algo obvio porque optimizar los hiperparámetros tomaría muchos cientos o miles de veces o más el costo de ejecutar todo una vez, lo que no parece útil en absoluto. Puede alguien ponerme al tanto?

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange