Knowledge Distillation

Destilación del conocimiento

    En el aprendizaje automático, el enfoque de destilación de conocimiento transfiere conocimiento desde un modelo de maestro grande hasta un modelo de estudiante más pequeño. El modelo grande a menudo puede ser entrenado con éxito para aproximarse a una relación funcional sin utilizar toda su capacidad representacional. Para reducir los altos requisitos computacionales y de memoria. durante la aplicación, se entrena un modelo más pequeño para imitar al modelo grande sin sacrificando la precisión. La ventaja de este enfoque es que el modelo de estudiante puede ser entrenado para activaciones internas aproximadas del modelo docente. 

El marco genérico de la formación de destilación de conocimientos profesor-alumno

La destilación del conocimiento ( KD ; Hinton et al. 2015 , Gou et al. 2020 ) es una forma sencilla de construir un modelo más pequeño y económico ( "modelo de estudiante" ) para acelerar la inferencia mediante la transferencia de habilidades de un modelo costoso previamente entrenado ( " modelo de maestro” ) en el alumno. No hay mucha restricción sobre cómo se debe construir la arquitectura del estudiante, excepto un espacio de salida emparejado con el maestro para construir un objetivo de aprendizaje adecuado.

Implementación

Una prueba temprana exitosa es DistilBERT ( Sanh et al. 2019 ) que puede reducir los parámetros de un BERT en un 40 % mientras mantiene un rendimiento del 97 % del BERT en tareas posteriores afinadas y se ejecuta un 71 % más rápido.









 https://arxiv.org/pdf/2302.08575.pdf