Foundation models

Modelo base (Foundation Model) es un gran modelo de inteligencia artificial entrenado en una gran cantidad de datos a escala (a menudo mediante aprendizaje autosupervisado o aprendizaje semisupervisado ) que da como resultado un modelo que se puede adaptar a una amplia gama de tareas posteriores. Los modelos básicos han ayudado a lograr una gran transformación en la forma en que se construyen los sistemas de IA, por ejemplo, al impulsar destacados chatbots y otras IA orientadas al usuario. El Instituto Stanford popularizó el término.

Los primeros ejemplos de modelos básicos fueron modelos de lenguaje grande (LLM) preentrenados, incluido el BERT y varios modelos GPT. Dichos modelos amplios pueden, a su vez, usarse para modelos específicos de tareas y/o dominios utilizando secuencias de otros tipos de tokens, como códigos médicos. Más allá del texto, se han producido varios modelos básicos visuales y multimodales, incluidos DALL-E , Flamingo, Florence y NOOR. Los modelos de base visual (VFM) se han combinado con LLM basados en texto para desarrollar modelos sofisticados para tareas específicas.

Modelo Base se refiere a cualquier modelo que esté entrenado en datos amplios (generalmente usando autosupervisión a escala) que se puede adaptar (por ejemplo, ajuste fino) a una amplia gama de tareas posteriores. Después de considerar muchos términos, se decidieron por el "modelo de base" para enfatizar la función prevista (es decir, la posibilidad de un desarrollo posterior posterior) en lugar de la modalidad, la arquitectura o la implementación.

También señalan que el concepto no es realmente nuevo, ya que se basa en redes neuronales profundas y aprendizaje autosupervisado , pero afirmaron que la escala a la que se ha desarrollado el área en los últimos años y el potencial cada vez mayor para que cualquier modelo dado sea utilizado para diferentes propósitos, justifica un nuevo término. Un modelo básico es un "paradigma para construir sistemas de IA" en el que un modelo entrenado en una gran cantidad de datos sin etiquetar se puede adaptar a muchas aplicaciones. Los modelos básicos están "diseñados para adaptarse (por ejemplo, ajustarse) a varias tareas cognitivas posteriores mediante el entrenamiento previo en datos amplios a escala".

Personalización de modelos de base

Dado que los modelos básicos se entrenan previamente en un conjunto de datos masivo, no son capaces de manejar conceptos "personales" específicos que puedan interesar a un usuario. Se diseñó una serie de métodos para aumentar un modelo básico con elementos personales y específicos sin volver a entrenar al usuario. modelo completo. Por ejemplo, para la recuperación de imágenes de pocas tomas , se mostró cómo adaptar un modelo básico de visión-lenguaje (CLIP) agregando un nuevo concepto a su vocabulario. Para la generación de texto a imagen , un enfoque llamado inversión textual se puede usar de manera similar para enseñarle al sistema un nuevo concepto que luego se puede generar junto con los conceptos con los que el modelo básico ya está familiarizado.

Un modelo base que puede ser utilizado para hacer otras tareas.