Funciones de Activación

Las funciones de activación son funciones que aplicamos en las redes neuronales después (típicamente) de aplicar una transformación afín que combina pesos y características de entrada. Suelen ser funciones no lineales. La unidad lineal rectificada, o ReLU, ha sido la más popular en la última década, aunque la elección depende de la arquitectura y han surgido muchas alternativas en los últimos años.

En las redes neuronales artificiales , la función de activación de un nodo define la salida de ese nodo dada una entrada o un conjunto de entradas. Un circuito integrado estándar puede verse como una red digital de funciones de activación que pueden estar "ENCENDIDO" (1) o "APAGADO" (0), según la entrada. Esto es similar al perceptrón lineal en las redes neuronales . Sin embargo, solo las funciones de activación no lineales permiten que dichas redes calculen problemas no triviales utilizando solo una pequeña cantidad de nodos, y tales funciones de activación se denominan no linealidades .

Sigmoide (Sigmoid)

Las activaciones sigmoideas son un tipo de función de activación para redes neuronales:

Algunos inconvenientes de esta activación que se han observado en la literatura son: fuertes gradientes de humedad durante la retropropagación desde capas ocultas más profundas a las entradas, saturación de gradiente y convergencia lenta.

Tangente Hiperbolica (Tanh)

Tanh Activation es una función de activación utilizada para redes neuronales:

Históricamente, la función tanh se prefirió a la función sigmoidea , ya que brindaba un mejor rendimiento para las redes neuronales multicapa. Pero no resolvió el problema del gradiente de fuga que sufrían los sigmoides, que se abordó de manera más efectiva con la introducción de activaciones ReLU .

Unidad Lineal Rectificada (ReLU)

Las Unidades Lineales Rectificadas , o ReLU , son un tipo de función de activación que son lineales en la dimensión positiva, pero cero en la dimensión negativa. La torcedura en la función es la fuente de la no linealidad. La linealidad en la dimensión positiva tiene la atractiva propiedad de evitar la no saturación de los gradientes (a diferencia de las activaciones sigmoideas ), aunque para la mitad de la línea real su gradiente es cero.

Unidad lineal de error Gaussiano (GELU)

Introducido por Hendrycks et al. en unidades lineales de error gaussiano (GELU)

La unidad lineal de error gaussiano , o GELU , es una función de activación. La función de activación de GELU es 0(X), donde 0(X) la función de distribución acumulativa gaussiana estándar. La no linealidad de GELU pondera las entradas por su percentil, en lugar de filtrar las entradas por su signo como en ReLU (x1>0). En consecuencia, la GELU se puede considerar como una ReLU más suave.

Los GELU se utilizan en GPT-3 , BERT y la mayoría de los otros transformadores.

Función de Salida: Softmax

En teoría de la probabilidad, la salida de la función softmax puede ser utilizada para representar una distribución categórica– la distribución de probabilidad sobre K diferentes posibles salidas.

La función softmax es empleada en varios métodos de clasificación multiclase tales como Regresión Logística Multinomial,1: 206–209 análisis discriminante lineal multiclase, clasificadores Bayesianos ingenuos (naive Bayes), y Redes Neuronales Artificiales.

La función softmax es una función que convierte un vector de K valores reales en un vector de K valores reales que suman 1. Los valores de entrada pueden ser positivos, negativos, cero o mayores que uno, pero softmax los transforma en valores entre 0 y 1, para que puedan interpretarse como probabilidades . Si una de las entradas es pequeña o negativa, el softmax la convierte en una probabilidad pequeña, y si una entrada es grande, la convierte en una probabilidad grande, pero siempre permanecerá entre 0 y 1.

La función softmax a veces se denomina función softargmax o regresión logística multiclase . Esto se debe a que softmax es una generalización de la regresión logística que se puede usar para la clasificación de clases múltiples, y su fórmula es muy similar a la función sigmoidea que se usa para la regresión logística. La función softmax se puede usar en un clasificador solo cuando las clases son mutuamente excluyentes.

Muchas redes neuronales multicapa terminan en una penúltima capa que genera puntajes de valor real que no se escalan convenientemente y con los que puede ser difícil trabajar. Aquí, el softmax es muy útil porque convierte las puntuaciones en una distribución de probabilidad normalizada , que puede mostrarse a un usuario o usarse como entrada para otros sistemas. Por esta razón, es habitual agregar una función softmax como capa final de la red neuronal.

Formula de Softmax

Aplicación de la softmax