Cada vez con mayor frecuencia se está usando la Inteligencia Artificial. Sin embargo, para avanzar en su uso cotidiano y con ello realizar la transformación mayor que la IA es capaz de impulsar es necesario que se le pueda procesar en los servidores de las organizaciones y no tener que depender exclusivamente de las redes de supercomputadoras que ellas necesitan hoy en día.
Especial de Laszlo Beke
Es una situación similar al aprovechamiento del software que permitió el incremento de la capacidad de computación y de telecomunicaciones. Precisamente eso está comenzando a ocurrir en Inteligencia Artificial. El mecanismo aplicado tiene una compleja base matemática, pero trataré de explicarlo en la forma más coloquial posible.
Para construir un LLM (Modelo Grande de Lenguaje) se requieren inmensas cantidades de data. Usando el entrenamiento convencional, el LLM es alimentado con montañas de texto y además alentado a adivinar cada palabra antes de que esta aparezca. Con cada predicción, el LLM realiza pequeños ajustes que mejoran sus probabilidades de adivinar correctamente. El resultado final es un texto que permite un cierto entendimiento o comprensión estadística de aquello que es y también que no es el lenguaje adecuado.
Sin embargo, en ese punto el LLM solo ha pasado por la etapa que se denomina el “pre-entrenamiento” y no es particularmente útil. La forma que se ha venido utilizando para alinear dichos modelos con las expectativas de los usuarios es a través del Aprendizaje Reforzado con Retroalimentación Humana (rlhf en inglés). Este fue un ingrediente determinante para ChatGPT pudiera ser liberado exitosamente, ocho meses después de que inició dicho proceso.
Aprendizaje Reforzado con Retroalimentación Humana (RLHF)
Este aprendizaje normalmente incluye tres pasos:
-
En el texto producido por el LLM, a voluntarios humanos se les pide que escojan entre dos respuestas potenciales las cuales en el LLM serían un mejor encaje con un prompt específico. Esto es repetido miles de veces.
-
La data anteriormente generada se utiliza para entrenar un segundo LLM, el cual termina actuando en el rol de un ser humano. Allí se aplica el Modelo de Premio o Recompensa y está diseñado para asignar un valor más alto a una respuesta que le gustaría a un ser humano y menores valores a todas las demás respuestas.
-
La data del segundo LLM es finalmente utilizada para entrenar al LLM original. Alli, esa técnica de aprendizaje automático denominada “aprendizaje reforzado” realiza cambios en el LLM original, para reforzar los comportamientos que merecen un premio o recompensa.
Indudablemente, esta forma de hacer el “RLFH” funciona, pero es muy compleja. Utilizar dos llm separados requiere tiempo y recursos y el algoritmo utilizado para el refuerzo es bastante exigente en los recursos que requiere. Esto ha significado que fuera de OpenAI, Google y sus rivales, nadie ha podido explotar su potencial en forma completa.
Optimización Preferencial Directa (DPO)
Buscando disminuir los recursos requeridos ha aparecido el proceso de Optimización Preferencial Directa DPO. Este es un enfoque novedoso para la entonación o ajuste fino de los modelos LLM, con la finalidad de alinearlos desde el inicio con las preferencias humanas. A diferencia de los métodos tradicionales, los cuales se basan en el Aprendizaje Reforzado, el DPO toma una ruta diferente. En esencia, trabaja de la siguiente forma:
Objetivo de Alineación – En el fondo, DPO alinea directamente los resultados del modelo de lenguaje con las preferencias humanas. Trata el proceso de optimización como un “problema de clasificación”. Esencialmente, el modelo aprende a clasificar cuál de las dos respuestas está más alineada con las preferencias humanas.
Data preferencial – En lugar de depender de los modelos de recompensa o del aprendizaje reforzado complejo, el DPO optimiza directamente el modelo de lenguaje utilizando un conjunto de preferencias predeterminado. El prompt es la entrada y el modelo aprende a distinguir entre dos posibles respuestas basándose en la preferencia humanas. Esto anteriormente se realizaban en el segundo LLM.
La función de Pérdida Simple – La magia reside en la formulación de una función de “Pérdida Simple”. La función de pérdida es también conocida como una “función de error” y tiene un rol crucial en el aprendizaje automático. Ella cuantifica el objetivo de alineación entre los resultados predichos por el algoritmo de aprendizaje automático y el valor objetivo real. Imaginemos el entrenamiento de un modelo para predecir precios de autos basados en data histórica. La función de pérdida simple evalúa cuando lejos están las predicciones del modelo en comparación con los precios existentes.
Generalización y robustez – Se ha agregado también un reforzador y estabilizador del proceso de alineación (IPO (Identity Preference Optimisation).
Para resumir, DPO simplifica el proceso de alineación, haciéndolo más liviano y estable desde el punto de vista computacional. Es como enseñarle a un modelo a apreciar las preferencias humanas directamente, sin el aprendizaje reforzado. Así resulta que los mismos resultados se pueden obtener con una fracción del esfuerzo. De acuerdo a los autores, eliminar al intermediario hace al DPO seis veces más eficiente que el rlhf y es además capaz de un mejor desempeño en tareas como la síntesis del texto. Su facilidad de uso está permitiendo a empresas de IA pequeñas enfrentar el problema de alineación. Para el 12/3/24, ocho de los de los diez llm mejor ranqueados estaban usando DPO, incluyendo al emprendimiento francés Mistral y Meta.
La Optimización Preferencial Directa (DPO) depende de un artificio matemático. El artificio está asociado a la observación que en cada modelo de recompensa hay un LLM teórico que responde plenamente al mismo y que al mismo tiempo cada LLM tiene un modelo de compensación teórica que provee el mejor resultado. Dicho en forma más prosaica, cada par de pantalones tiene una persona a la cual le calzaría perfectamente y cada persona tiene un teórico par de pantalones que encajarían o le corresponderían perfectamente.
Mejoras adicionales seguramente también están en camino. La visión consensuada es que los grandes laboratorios han hecho mejoras a sus algoritmos propietarios desde que dejaron de publicar detalles en 2022. Sin embargo, lograr que un LLM haga lo que un ser humano quiere y espera todavía está lejos de estar resuelto. Los humanos también enfrentan dificultades ocasionalmente.
Se hace referencia a How to train your large language model. También aparece en mi Portal https://tinyurl.com/35h32x6b