* xataka.com * #android #tech #tecnologia
El rendimiento de los grandes modelos de lenguaje se ha medido en los últimos años teniendo en cuenta principalmente el número de parámetros establecidos durante la etapa de entrenamiento. Bajo este razonamiento era totalmente lógico pensar que los modelos mejoraban su capacidad para realizar tareas o resolver problemas a medida que se incorporaban más parámetros.
Pero hay indicios para creer que estamos asistiendo a un importante cambio de paradigma en el que el volumen de parámetros no es tan importante como se creía. Aunque mucha información se mantiene bajo llave por el cada vez más complejo escenario competitivo, un claro ejemplo de ello es el camino que estarían siguiendo actores tan importantes como Google y OpenAI.
En este punto es preciso señalar la importancia de este aparente cambio de tendencia. Dotar a los modelos de lenguajes de grandes cantidades de parámetros se traduce en elevadas inversiones de tiempo y dinero. Ahora bien, si es posible hacer modelos mejores economizando en este apartado, podríamos presenciar avances mucho más veloces y significativos en diferentes campos de la IA.
PaLM 2, menos parámetros, más datos
Hace una semana, Google presentó su modelo de lenguaje PaLM 2 destinado a participar de la batalla con GPT-4 de OpenAI. Se trata de la evolución de PaLM, que llegó el año anterior para competir con otro de los productos de a compañía de Sam Altman, en ese momento el prometedor GPT-3. ¿Qué se ha visto recientemente? Que la compañía de Mountain View está cambiando la forma en la que entrena sus modelos.
Los detalles sobre las características técnicas del último modelo de Google no han sido relevados al público, pero documentos internos vistos por CNBC señalan que PaLM 2 ha sido entrenado con millones de parámetros menos que su predecesor, y aún así presume de un rendimiento superior. En concreto, el modelo de nueva generación tendría 340 mil millones de parámetros frente a los 540 mil millones del anterior.
En una publicación de blog, la compañía del buscador ha reconocido la utilización de una nueva técnica conocida como “escalado óptimo de cómputo” para hacer más eficiente el rendimiento general del modelo, incluyendo la utilización de menos parámetros y, por consecuencia, un costo de entrenamiento más bajo. La baza de Google para PaLM 2 ha venido por otra parte: aumentar el conjunto de datos.
Recordemos que los conjuntos de datos (datasets) están conformados por una amplia variedad de información recopilada de páginas web, estudio científicos, etc. En este sentido, la información filtrada apunta a que lo nuevo de Google ha sido entrenado con cinco veces más datos que PaLM presentado en 2022. Este cambio se presenta en tokens, es decir, en las unidades que conforman los datasets.
PaLM 2 habría sido entrenado con 3,6 billones de tokens, mientras que PaLM tendría solo 780 mil millones de tokens. Para hacernos una idea de este escenario podemos mencionar, por ejemplo, que el modelo LLaMA de Meta ha sido entrenado con 1,4 billones de tokens. Esta información sobre GPT-4 se desconoce, pero los papers de GPT-3 señalan que el modelo tiene 300 mil millones de tokens.
Este cambio de paradigma de utilizar menos parámetros para entrenar los modelos no es algo exclusivo de Google. OpenAI también está trabajando en esa dirección. Desde hace meses que Altman viene señalando que la carrera por aumentar la cantidad de parámetros le recuerda a finales de la década de 1990 cuando la industria del hardware estaba obsesionada con aumentar la velocidad de reloj de los procesadores.
Como señalan nuestros compañeros de Genbeta, el máximo responsable de la compañía de IA asegura que “los GHz han pasado a un segundo plano” y pone de ejemplo el escenario en que la mayoría de las personas desconoce la velocidad del procesador de su iPhone, pero sabe que es rápido. “Lo que realmente nos importa son las capacidades, y creo que es importante centrarnos en la capacidad”, señala.
¿Qué son los parámetros?
A grandes rasgos, los parámetros entran en escena en la etapa de entrenamiento de los modelos de IA. Estos permiten que modelos puedan aprender de los datos y brindar respuestas en base a predicciones. Por ejemplo, si entrenamos un modelo específicamente diseñado para encontrar casas en función del precio, este aprendería parámetros como el las dimensiones, ubicación o comodidades.
Imágenes: Google
source
Segun xataka.com