Optimizers

SGD  

Descenso de gradiente estocástico

En Stochastic Gradient Descent, reemplazamos el vector de gradiente actual con una estimación estocástica del vector de gradiente. Específicamente para una red neuronal, la estimación estocástica significa el gradiente de pérdida para un único punto de datos (instancia única).




Momentun



SGD with momentum


RMSProp

RMSProp es un optimizador de tasa de aprendizaje adaptativo inédito propuesto por Geoff Hinton . La motivación es que la magnitud de los gradientes puede diferir para diferentes pesos y puede cambiar durante el aprendizaje, lo que dificulta elegir una única tasa de aprendizaje global. RMSProp aborda esto manteniendo un promedio móvil del gradiente al cuadrado y ajustando las actualizaciones de peso según esta magnitud


Adam

Adam es un algoritmo de optimización de la tasa de aprendizaje adaptativo que utiliza tanto el impulso como el escalado, combinando los beneficios de RMSProp y SGD con Momentum . El optimizador está diseñado para ser apropiado para objetivos no estacionarios y problemas con gradientes muy ruidosos y/o escasos.


AdamW

AdamW es un método de optimización estocástica que modifica la implementación típica de la disminución del peso en Adam , al desacoplar la disminución del peso de la actualización del gradiente.

Adafactor

Adafactor es un método de optimización estocástica basado en Adam que reduce el uso de la memoria al tiempo que conserva los beneficios empíricos de la adaptabilidad. Esto se logra manteniendo una representación factorizada del acumulador de gradiente al cuadrado en los pasos de entrenamiento. Específicamente, al rastrear los promedios móviles de las sumas de filas y columnas de los gradientes cuadrados para las variables con valores de matriz, podemos reconstruir una aproximación de rango bajo del acumulador suavizado exponencialmente en cada paso de entrenamiento que es óptimo con respecto al Kullback generalizado.

AdaGrad

AdaGrad es un método de optimización estocástica que adapta la tasa de aprendizaje a los parámetros. Realiza actualizaciones más pequeñas para parámetros asociados con características que ocurren con frecuencia y actualizaciones más grandes para parámetros asociados con características que ocurren con poca frecuencia. 


AdaDelta

AdaDelta es una técnica de optimización estocástica que permite el método de tasa de aprendizaje por dimensión para SGD . Es una extensión de Adagrad que busca reducir su tasa de aprendizaje agresiva y monótonamente decreciente. En lugar de acumular todos los gradientes cuadrados pasados, Adadelta restringe la ventana de gradientes pasados ​​acumulados a un tamaño fijo

Nadam

NADAM , o Estimación de momento adaptativo acelerado por Nesterov , combina Adam y Nesterov Momentum






Optimizers

What is Optimizer ?

It is very important to tweak the weights of the model during the training process, to make our predictions as correct and optimized as possible. But how exactly do you do that? How do you change the parameters of your model, by how much, and when?

Best answer to all above question is optimizers. They tie together the loss function and model parameters by updating the model in response to the output of the loss function. In simpler terms, optimizers shape and mold your model into its most accurate possible form by futzing with the weights. The loss function is the guide to the terrain, telling the optimizer when it’s moving in the right or wrong direction.

Below are list of example optimizers