Mixture of Expert

Mezcla de Expertos

¡la combinación de varios alumnos débiles le da un alumno fuerte!

Los modelos de mezcla de expertos (MoE) dependen de una colección de redes "expertas" y cada ejemplo solo activa un subconjunto de redes para obtener predicciones.

El enfoque Mixture-of-Experts (MoE) atrae mucha atención recientemente, ya que los investigadores (principalmente de Google) intentan superar el límite del tamaño del modelo.

Dentro de una red neuronal profunda, el ensamblaje se puede implementar con un mecanismo de activación que conecta a múltiples expertos ( Shazeer et al., 2017 ). El mecanismo de activación controla qué subconjunto de la red (por ejemplo, qué expertos) debe activarse para producir salidas. El documento lo denominó capa de "mezcla de expertos escasamente controlada" (MoE).

Precisamente una capa MoE contiene

· n redes feed-forward como expertos{E}i=1
· Una red de puertas entrenable G aprender una distribución de probabilidad sobre n expertos para enrutar el tráfico a unos pocos expertos seleccionados.

Dependiendo de los resultados de activación, no es necesario evaluar a todos los expertos. Cuando el número de expertos es demasiado grande, podemos considerar el uso de un MoE jerárquico de dos niveles.

Con la arquitectura MoE, solo se utilizan parámetros parciales en el momento de la decodificación y, por lo tanto, ahorra costos de inferencia. La capacidad de cada experto se puede ajustar con un hiperparámetro, factor de capacidad C, y la capacidad experta se define como:

donde arriba -k los expertos se seleccionan por token. más grande C conduce a una mayor capacidad experta y un rendimiento mejorado, pero más costoso computacionalmente. Cuando C>1, se agrega una capacidad ociosa; de lo contrario, cuando C<1, la red de enrutamiento debe ignorar algunos tokens.

Mejora de la estrategia de enrutamiento

La capa MoE tiene una red de enrutamiento para asignar un subconjunto de expertos para cada token de entrada. La estrategia de enrutamiento en los modelos Vanilla MoE es enrutar cada token hacia los expertos preferidos de manera diferente a medida que aparecen en el orden natural. Si un token se enruta a expertos que han alcanzado su capacidad, el token se marcará como "desbordado" y se omitirá .

Implementaciones de MoE

GShard ( Lepikhin et al., 2020 ) escala el modelo de transformador MoE hasta 600 000 millones de parámetros con fragmentación. El transformador MoE reemplaza cualquier otra capa de avance con una capa MoE. El transformador de MoE fragmentado solo tiene las capas de MoE fragmentadas en varias máquinas, mientras que otras capas simplemente se duplican.

Switch Transformer ( Fedus et al. 2021 ) escala el tamaño del modelo hasta billones de parámetros (!! al reemplazar la densa capa de avance con una capa de interruptor FFN escasa en la que cada entrada solo se enruta a una red experta.

V-MoE (Vision MoE; Riquelme et al. 2021 ) agrega capas de MoE en ViT (Vision Transformer). Iguala el rendimiento de SoTA anterior, pero solo requiere la mitad del cálculo de inferencia. V-MoE se puede escalar hasta 15B parámetros.

Task MoE (Task-level Mixture-of-Experts; Kudugunta et al. 2021 ) tiene en cuenta la información de la tarea y enruta tokens a nivel de tarea en lugar de palabra o nivel de token para la traducción automática. Usaron MNMT (traducción automática neuronal multilingüe) como ejemplo y agruparon tareas de traducción basadas en el idioma de destino o los pares de idiomas.

PR-MoE (Pyramid residual MoE; Rajbhandari et al. 2022 ) hace que cada token pase un MLP fijo y un experto elegido. Debido a la observación de que MoE en capas posteriores es más beneficioso, PR-MoE adopta más exportaciones en capas posteriores. La biblioteca DeepSpeed implementa un paralelismo flexible de múltiples expertos y múltiples datos para permitir el entrenamiento de PR-MoE con diferentes números de expertos en todas las capas.

GLaM: Que utiliza una arquitectura mezcla de expertos escasamente activada para escalar la capacidad del modelo y al mismo tiempo incurrir en un costo de capacitación sustancialmente menor en comparación a variantes densas.

Pangu-E: En las N capas superiores, reemplazamos cada subcapa de retroalimentación con múltiples subcapas de retroalimentación activadas condicionalmente (expertos), siguiendo el paradigma Mixture of Experts (MoE).

Wu Dao: Usan una tecnica llamada FastMoE

La capacidad de una red neuronal para absorber información está limitada por su número de parámetros, se ha propuesto una forma de aumentar drásticamente la capacidad del modelo sin un aumento proporcional en el cálculo. Sin embargo, existen importantes desafíos algorítmicos y de rendimiento. La capacidad del modelo como Mezcla de expertos (MoE) muestran pérdidas menores en la eficiencia computacional en los clústeres de GPU modernos. Redes de MoE constas de hasta miles de subredes feed-forward, una red de puertas entrenable determina una escasa combinación de estos expertos para usar en cada ejemplo. MoE se usan para tareas de modelado de lenguaje y para vision por computador, donde la capacidad del modelo es fundamental para absorber la gran cantidad de conocimientos disponibles en la formación corpus. Modelos logran resultados significativamente mejores que los de última generación a un menor costo computacional usan MoE.