Transformers

         Los modelos de transducción de secuencias dominantes se basan en redes neuronales convolucionales o recurrentes complejas en una configuración de codificador-decodificador. Los modelos con mejor rendimiento también conectan el codificador y el decodificador a través de un mecanismo de atención. Proponemos una nueva arquitectura de red simple, el Transformador, basada únicamente en mecanismos de atención, prescindiendo por completo de la recurrencia y las convoluciones. Los experimentos en dos tareas de traducción automática muestran que estos modelos son de calidad superior, al mismo tiempo que son más paralelizables y requieren mucho menos tiempo de entrenamiento. Nuestro modelo logra 28,4 BLEU en la tarea de traducción del inglés al alemán del WMT 2014, mejorando los mejores resultados existentes, incluidos los conjuntos, en más de 2 BLEU. En la tarea de traducción del inglés al francés del WMT 2014, nuestro modelo establece una nueva puntuación BLEU de última generación de modelo único de 41,8 después de entrenar durante 3,5 días en ocho GPU, una pequeña fracción de los costos de entrenamiento de los mejores modelos de la literatura. Mostramos que el Transformador generaliza bien a otras tareas al aplicarlo con éxito al análisis de distrito electoral inglés con datos de entrenamiento grandes y limitados.

Un transformador es un modelo de aprendizaje profundo que adopta el mecanismo de autoatención , ponderando diferencialmente el significado de cada parte de los datos de entrada. Se utiliza principalmente en los campos del procesamiento del lenguaje natural (PNL) y la visión artificial (CV).

Al igual que las redes neuronales recurrentes (RNN), los transformadores están diseñados para procesar datos de entrada secuenciales, como el lenguaje natural, con aplicaciones para tareas como la traducción y el resumen de texto . Sin embargo, a diferencia de los RNN, los transformadores procesan toda la entrada a la vez. El mecanismo de atención proporciona contexto para cualquier posición en la secuencia de entrada. Por ejemplo, si los datos de entrada son una oración de lenguaje natural, el transformador no tiene que procesar una palabra a la vez. Esto permite una mayor paralelización que las RNN y, por lo tanto, reduce los tiempos de entrenamiento.

Los transformadores fueron presentados en 2017 por un equipo de Google Brain y son cada vez más el modelo elegido para los problemas de NLP, reemplazando los modelos RNN como la memoria a corto plazo (LSTM). La paralelización de entrenamiento adicional permite el entrenamiento en conjuntos de datos más grandes. Esto condujo al desarrollo de sistemas preentrenados como BERT (Representaciones de codificador bidireccional de transformadores) y GPT (Transformador preentrenado generativo), que se entrenaron con grandes conjuntos de datos de idiomas, como Wikipedia Corpus y Common Crawl , y pueden ser refinados. afinado para tareas específicas.



Modelos basados en la arquitectura Transformers

1. Perceptor  : algoritmo de aprendizaje automático para datos no textuales

2. BERT (modelo de lenguaje)  : un modelo de lenguaje neuronal enmascarado desarrollado por Google.

3. GPT-3  : modelo de lenguaje generador de texto 2020

4. ChatGPT  – Chatbot de inteligencia artificial desarrollado por OpenAI

5 .Wu Dao  - programa chino de inteligencia artificial multimodal

6. Transformador de visión  : algoritmo de aprendizaje automático para procesamiento de visión

7. BLOOM (modelo lingüístico)  : modelo lingüístico multilingüe de acceso abierto


Scaled Dot-Product Attention



Multi-Head Attention


See also:

1. https://docs.google.com/spreadsheets/d/1ltyrAB6BL29cOv2fSpNQnnq2vbX8UrHl47d7FkIf6t4/edit#gid=0

2. https://drive.google.com/file/d/1px8VJu8VgBW9kSagTeL3yIodl8scPpTY/view

3. https://jalammar.github.io/illustrated-transformer/