Cadenas de pensamiento: Language Models Perform Reasoning via Chain of Thought

Las indicaciones cadena de de pensamiento (Chain of Thought) es un método simple y ampliamente aplicable para mejorar la capacidad de los modelos de lenguaje para realizar diversas tareas de razonamiento. A través de experimentos sobre aritmética y razonamiento de sentido común, encontramos que la cadena de impulsos de pensamiento es una propiedad emergente de la escala del modelo. 

Este método permite que los modelos descompongan problemas de varios pasos en pasos intermedios. Con la cadena de indicaciones de pensamiento, los modelos de lenguaje de escala suficiente (parámetros ~100B) pueden resolver problemas de razonamiento complejos que no se pueden resolver con métodos de indicaciones estándar.

Comparación con las indicaciones estándar

Con indicaciones estándar (popularizadas por GPT-3 ), el modelo recibe ejemplos de pares de entrada-salida (formateados como preguntas y respuestas) antes de pedirle que prediga la respuesta para un ejemplo de tiempo de prueba (que se muestra a continuación a la izquierda). En la cadena de sugerencias de pensamiento (abajo, a la derecha), se le pide al modelo que produzca pasos intermedios de razonamiento antes de dar la respuesta final a un problema de varios pasos. La idea es que una cadena de pensamiento generada por un modelo imite un proceso de pensamiento intuitivo cuando se resuelve un problema de razonamiento de varios pasos. Si bien la producción de un proceso de pensamiento se ha realizado previamentea través del ajuste fino, mostramos que tales procesos de pensamiento se pueden provocar al incluir algunos ejemplos de cadena de pensamiento solo a través de indicaciones, lo que no requiere un gran conjunto de datos de entrenamiento o la modificación de los pesos del modelo de lenguaje.

Mientras que la guía estándar le pide al modelo que dé directamente la respuesta a un problema de razonamiento de varios pasos, la guía de cadena de pensamiento induce al modelo a descomponer el problema en pasos de razonamiento intermedios, en este caso conduce a una respuesta final correcta.

El razonamiento en cadena de pensamiento permite que los modelos descompongan problemas complejos en pasos intermedios que se resuelven individualmente. Además, la naturaleza de la cadena de pensamiento basada en el lenguaje la hace aplicable a cualquier tarea que una persona pueda resolver a través del lenguaje. A través de experimentos empíricos, descubrimos que la cadena de mensajes de pensamiento puede mejorar el desempeño en varias tareas de razonamiento, y que el razonamiento exitoso de la cadena de pensamientos es una propiedad emergente de la escala del modelo, es decir, los beneficios de la cadena de mensajes de pensamiento solo se materializan con un número suficiente de parámetros del modelo (alrededor de 100B).

Razonamiento Aritmético
Una clase de tareas en las que los modelos de lenguaje suelen tener dificultades es el razonamiento aritmético (es decir, resolver problemas matemáticos). Dos puntos de referencia en el razonamiento aritmético son MultiArith y GSM8K , que prueban la capacidad de los modelos de lenguaje para resolver problemas matemáticos de varios pasos similares al que se muestra en la figura anterior. Evaluamos tanto la colección LaMDA de modelos de lenguaje que van desde los parámetros 422M a 137B, como la colección PaLM de modelos de lenguaje que van desde los parámetros 8B a 540B. Componemos manualmente cadenas de pensamiento para incluirlas en los ejemplos de indicaciones de cadena de pensamiento.

Para estos dos puntos de referencia, el uso de indicaciones estándar conduce a curvas de escala relativamente planas: aumentar la escala del modelo no mejora sustancialmente el rendimiento (como se muestra a continuación). Sin embargo, descubrimos que cuando se utiliza la cadena de indicaciones de pensamiento, el aumento de la escala del modelo conduce a un rendimiento mejorado que supera sustancialmente las indicaciones estándar para modelos de gran tamaño.



El empleo de indicaciones de cadena de pensamiento permite que los modelos de lenguaje resuelvan problemas de razonamiento aritmético para los cuales las indicaciones estándar tienen una curva de escala mayoritariamente plana.
En el conjunto de datos GSM8K de problemas matemáticos, PaLM muestra un rendimiento notable cuando se escala a parámetros 540B. Como se muestra en la siguiente tabla, la combinación de indicaciones de cadena de pensamiento con el modelo PaLM de parámetros 540B conduce a un nuevo rendimiento de vanguardia del 58 %, superando el estado del arte anterior del 55 % logrado mediante el ajuste fino de GPT- 3 175B en un gran conjunto de entrenamiento y luego clasificar las posibles soluciones a través de un verificador especialmente capacitado. Además, el trabajo de seguimiento sobre la autocoherencia muestra que el rendimiento de las indicaciones de la cadena de pensamiento se puede mejorar aún más si se obtiene el voto mayoritario de un amplio conjunto de procesos de razonamiento generados, lo que da como resultado una precisión del 74 % en GSM8K.

Razonamiento de sentido común
Además del razonamiento aritmético, consideramos si la naturaleza basada en el lenguaje de las indicaciones de la cadena de pensamiento también lo hace aplicable al razonamiento de sentido común, que implica el razonamiento sobre las interacciones físicas y humanas bajo la presunción de un conocimiento previo general. Para estas evaluaciones, utilizamos los puntos de referencia CommonsenseQA y StrategyQA , así como dos tareas específicas de dominio de la colaboración BIG-Bench con respecto a la comprensión de fechas y la comprensión deportiva . Las preguntas de ejemplo están a continuación:


Como se muestra a continuación, para CommonsenseQA, StrategyQA y Date Understanding, el rendimiento mejoró con la escala del modelo y el empleo de indicaciones de cadena de pensamiento condujo a pequeñas mejoras adicionales. La cadena de pensamientos tuvo la mayor mejora en la comprensión deportiva, para la cual el rendimiento de la cadena de pensamientos de PaLM 540B superó al de un entusiasta de los deportes sin ayuda (95 % frente a 84 %).

Es de esperar que ampliar la gama de tareas de razonamiento que pueden realizar los modelos de lenguaje inspire más trabajo sobre enfoques de razonamiento basados ​​en el lenguaje.



Chain-of-Thought


Chain-of-Thought (CoT) es una guía mejorada estrategia para impulsar el desempeño de LLMs en complejos tareas de razonamiento, como el razonamiento aritmético

Reinforcement Learning with Human Feedback
Con retroalimentacion humana

The workflow of the RLHF algorithm.