Batch Normalization

La normalización por lotes (también conocida como norma por lotes ) es un método que se utiliza para hacer que el entrenamiento de las redes neuronales artificiales sea más rápido y estable a través de la normalización de las entradas de las capas al volver a centrar y escalar. Fue propuesto por Sergey Ioffe y Christian Szegedy en 2015.

Si bien el efecto de la normalización por lotes es evidente, las razones detrás de su efectividad siguen siendo objeto de debate. Se creía que puede mitigar el problema del cambio de covariable interno , donde la inicialización de parámetros y los cambios en la distribución de las entradas de cada capa afectan la tasa de aprendizaje de la red. Recientemente, algunos académicos han argumentado que la normalización por lotes no reduce el cambio de covariable interno, sino que suaviza la función objetivo , lo que a su vez mejora el rendimiento. Sin embargo, en la inicialización, la normalización por lotes de hecho induce una explosión de gradiente severa en las redes profundas, que solo se alivia con las conexiones de omisión en las redes residuales. Otros sostienen que la normalización por lotes logra el desacoplamiento de la dirección de la longitud y, por lo tanto, acelera las redes neuronales . Más recientemente, se ha introducido una técnica de recorte de gradiente de normalización y un ajuste inteligente de hiperparámetros en Redes sin normalizador, las llamadas "Redes NF", que mitiga la necesidad de normalización por lotes.