Mezcla de Expertos
¡la combinación de varios alumnos débiles le da un alumno fuerte!
Los modelos de mezcla de expertos (MoE) dependen de una colección de redes "expertas" y cada ejemplo solo activa un subconjunto de redes para obtener predicciones.
El enfoque Mixture-of-Experts (MoE) atrae mucha atención recientemente, ya que los investigadores (principalmente de Google) intentan superar el límite del tamaño del modelo.
Dentro de una red neuronal profunda, el ensamblaje se puede implementar con un mecanismo de activación que conecta a múltiples expertos ( Shazeer et al., 2017 ). El mecanismo de activación controla qué subconjunto de la red (por ejemplo, qué expertos) debe activarse para producir salidas. El documento lo denominó capa de "mezcla de expertos escasamente controlada" (MoE).
Precisamente una capa MoE contiene
- · n redes feed-forward como expertos{E}i=1
- · Una red de puertas entrenable G aprender una distribución de probabilidad sobre n expertos para enrutar el tráfico a unos pocos expertos seleccionados.
Dependiendo de los resultados de activación, no es necesario evaluar a todos los expertos. Cuando el número de expertos es demasiado grande, podemos considerar el uso de un MoE jerárquico de dos niveles.
Con la arquitectura MoE, solo se utilizan parámetros parciales en el momento de la decodificación y, por lo tanto, ahorra costos de inferencia. La capacidad de cada experto se puede ajustar con un hiperparámetro, factor de capacidad C, y la capacidad experta se define como:
donde arriba -k los expertos se seleccionan por
token. más grande C conduce a una mayor capacidad
experta y un rendimiento mejorado, pero más costoso
computacionalmente. Cuando C>1,
se agrega una capacidad ociosa; de lo contrario, cuando C<1, la red de enrutamiento debe
ignorar algunos tokens.Mejora de la estrategia de
enrutamiento
La capa MoE tiene una red de
enrutamiento para asignar un subconjunto de expertos para cada token de
entrada. La estrategia de enrutamiento en los modelos Vanilla MoE es
enrutar cada token hacia los expertos preferidos de manera diferente a medida
que aparecen en el orden natural. Si un token se enruta a expertos que han
alcanzado su capacidad, el token se marcará como "desbordado"
y se omitirá .
Implementaciones
de MoE
GShard (
Lepikhin et al., 2020 ) escala el modelo de transformador MoE hasta 600 000 millones de parámetros con fragmentación. El transformador MoE reemplaza cualquier otra capa de avance con una capa MoE. El transformador de MoE fragmentado solo tiene las capas de MoE fragmentadas en varias máquinas, mientras que otras capas simplemente se duplican.
Switch Transformer (
Fedus et al. 2021 ) escala el tamaño del modelo hasta billones de parámetros (!! al reemplazar la densa capa de avance con una capa de interruptor FFN escasa en la que cada entrada solo se enruta a una red experta.
V-MoE (Vision MoE;
Riquelme et al. 2021 ) agrega capas de MoE en ViT (Vision Transformer). Iguala el rendimiento de SoTA anterior, pero solo requiere la mitad del cálculo de inferencia. V-MoE se puede escalar hasta 15B parámetros.
Task MoE (Task-level Mixture-of-Experts;
Kudugunta et al. 2021 ) tiene en cuenta la información de la tarea y enruta tokens a nivel de tarea en lugar de palabra o nivel de token para la traducción automática. Usaron MNMT (traducción automática neuronal multilingüe) como ejemplo y agruparon tareas de traducción basadas en el idioma de destino o los pares de idiomas.
PR-MoE (Pyramid residual MoE;
Rajbhandari et al. 2022 ) hace que cada token pase un MLP fijo y un experto elegido. Debido a la observación de que MoE en capas posteriores es más beneficioso, PR-MoE adopta más exportaciones en capas posteriores. La biblioteca DeepSpeed implementa un paralelismo flexible de múltiples expertos y múltiples datos para permitir el entrenamiento de PR-MoE con diferentes números de expertos en todas las capas.
GLaM: Que utiliza una arquitectura mezcla de expertos escasamente activada para escalar la capacidad del modelo y al mismo tiempo incurrir en un costo de capacitación sustancialmente menor en comparación a variantes densas.
Pangu-E: En las N capas superiores, reemplazamos cada subcapa de retroalimentación con múltiples subcapas de retroalimentación activadas condicionalmente (expertos), siguiendo el paradigma Mixture of Experts (MoE).
Wu Dao: Usan una tecnica llamada FastMoE
La capacidad de una red neuronal para absorber
información está limitada por su número de parámetros, se ha propuesto una
forma de aumentar drásticamente la capacidad del modelo sin un aumento
proporcional en el cálculo. Sin embargo, existen importantes desafíos
algorítmicos y de rendimiento. La capacidad del modelo como Mezcla de expertos
(MoE) muestran pérdidas menores en la eficiencia computacional en los clústeres
de GPU modernos. Redes de MoE constas de hasta miles de subredes feed-forward,
una red de puertas entrenable determina una escasa combinación de estos
expertos para usar en cada ejemplo. MoE se
usan para tareas de modelado de lenguaje y para vision por computador, donde la
capacidad del modelo es fundamental para absorber la gran cantidad de
conocimientos disponibles en la formación corpus. Modelos logran resultados
significativamente mejores que los de última generación a un menor costo
computacional usan MoE.