Reinforcement learning from human feedback ( RLHF )

Aprendizaje por refuerzo a partir de la retroalimentación humana ( RLHF ) o el aprendizaje por refuerzo a partir de las preferencias humanas es una técnica que entrena un "modelo de recompensa" directamente a partir de la retroalimentación humana y utiliza el modelo como una función de recompensa para optimizar la política de un agente mediante el aprendizaje por refuerzo . (RL) a través de un algoritmo de optimización como Proximal Policy Optimization . El modelo de recompensa se entrena antes de que la política se optimice para predecir si un resultado determinado es bueno (recompensa alta) o malo (recompensa baja). RLHF puede mejorar la robustezy exploración de agentes RL, especialmente cuando la función de recompensa es escasa o ruidosa.

La retroalimentación humana se recopila pidiéndoles a los humanos que clasifiquen instancias del comportamiento del agente. Estas clasificaciones se pueden usar para calificar los resultados, por ejemplo, con el sistema de calificación Elo .

RLHF se ha aplicado a varios dominios del procesamiento del lenguaje natural, como agentes conversacionales, resúmenes de texto y comprensión del lenguaje natural. El aprendizaje por refuerzo ordinario, donde los agentes aprenden de sus propias acciones en función de una "función de recompensa", es difícil de aplicar a tareas de procesamiento de lenguaje natural porque las recompensas a menudo no son fáciles de definir o medir, especialmente cuando se trata de tareas complejas que implican valores o preferencias humanas. RLHF puede permitir que los modelos de lenguaje brinden respuestas que se alineen con estos valores complejos, generen respuestas más detalladas y rechacen preguntas que sean inapropiadas o que estén fuera del espacio de conocimiento del modelo. Algunos ejemplos de modelos de lenguaje entrenados por RLHF son OpenAIChatGPT y su predecesor InstructGPT, así como DeepMind 's Sparrow .

RLHF también se ha aplicado a otras áreas, como el desarrollo de bots de videojuegos . Por ejemplo, OpenAI y DeepMind entrenaron a los agentes para jugar juegos de Atari según las preferencias humanas. Los agentes lograron un rendimiento sólido en muchos de los entornos probados, a menudo superando el rendimiento humano.

Desafíos y limitaciones

Uno de los principales desafíos de RLHF es la escalabilidad y el costo de la retroalimentación humana, que puede ser lenta y costosa en comparación con el aprendizaje no supervisado. La calidad y consistencia de los comentarios humanos también pueden variar según la tarea, la interfaz y las preferencias individuales de los humanos. Incluso cuando la retroalimentación humana es factible, los modelos RLHF aún pueden exhibir comportamientos indeseables que no son capturados por la retroalimentación humana o explotar lagunas en el modelo de recompensa, lo que saca a la luz los desafíos de la alineación y la solidez .

Impementaciones:

Sparrow
chatGPT
InstructGPT