Reinforcement learning from human feedback ( RLHF )
Aprendizaje por refuerzo a partir de la retroalimentación humana ( RLHF ) o el aprendizaje por refuerzo a partir de las preferencias humanas es una técnica que entrena un "modelo de recompensa" directamente a partir de la retroalimentación humana y utiliza el modelo como una función de recompensa para optimizar la política de un agente mediante el aprendizaje por refuerzo . (RL) a través de un algoritmo de optimización como Proximal Policy Optimization . El modelo de recompensa se entrena antes de que la política se optimice para predecir si un resultado determinado es bueno (recompensa alta) o malo (recompensa baja). RLHF puede mejorar la robustezy exploración de agentes RL, especialmente cuando la función de recompensa es escasa o ruidosa.
RLHF se ha aplicado a varios dominios del procesamiento del lenguaje natural, como agentes conversacionales, resúmenes de texto y comprensión del lenguaje natural. El aprendizaje por refuerzo ordinario, donde los agentes aprenden de sus propias acciones en función de una "función de recompensa", es difícil de aplicar a tareas de procesamiento de lenguaje natural porque las recompensas a menudo no son fáciles de definir o medir, especialmente cuando se trata de tareas complejas que implican valores o preferencias humanas. RLHF puede permitir que los modelos de lenguaje brinden respuestas que se alineen con estos valores complejos, generen respuestas más detalladas y rechacen preguntas que sean inapropiadas o que estén fuera del espacio de conocimiento del modelo. Algunos ejemplos de modelos de lenguaje entrenados por RLHF son OpenAIChatGPT y su predecesor InstructGPT, así como DeepMind 's Sparrow .
RLHF también se ha aplicado a otras áreas, como el desarrollo de bots de videojuegos . Por ejemplo, OpenAI y DeepMind entrenaron a los agentes para jugar juegos de Atari según las preferencias humanas. Los agentes lograron un rendimiento sólido en muchos de los entornos probados, a menudo superando el rendimiento humano.
Desafíos y limitaciones
Uno de los principales desafíos de RLHF es la escalabilidad y el costo de la retroalimentación humana, que puede ser lenta y costosa en comparación con el aprendizaje no supervisado. La calidad y consistencia de los comentarios humanos también pueden variar según la tarea, la interfaz y las preferencias individuales de los humanos. Incluso cuando la retroalimentación humana es factible, los modelos RLHF aún pueden exhibir comportamientos indeseables que no son capturados por la retroalimentación humana o explotar lagunas en el modelo de recompensa, lo que saca a la luz los desafíos de la alineación y la solidez .
Impementaciones:
- Sparrow
- chatGPT
- InstructGPT