abrazo de cara La semana pasada compartí un nuevo estudio de caso que muestra cómo los modelos de lenguaje pequeño (SLM) pueden superar a los modelos más grandes. En la publicación, los investigadores de la plataforma afirmaron que en lugar de aumentar el tiempo de entrenamiento de los modelos de inteligencia artificial (IA), centrarse en el tiempo de prueba informática podría mostrar mejores resultados para los modelos de IA. Esta última es una estrategia de inferencia que permite a los modelos de IA dedicar más tiempo a resolver un problema y ofrece diferentes métodos, como la autooptimización y la búsqueda versus el verificador, que pueden mejorar su eficiencia.
Cómo funciona la evaluación comparativa informática en el momento de la prueba
en un correoHugging Face destacó que el enfoque tradicional para mejorar las capacidades del modelo de IA puede consumir muchos recursos y ser costoso. Por lo general, se utiliza una técnica llamada cálculo del tiempo de entrenamiento en la que se utilizan algoritmos y datos previos al entrenamiento para mejorar la forma en que el modelo subyacente analiza la consulta y llega a la solución.
En cambio, los investigadores afirmaron que centrarse en medir el cálculo del tiempo de prueba, una técnica en la que a los modelos de IA se les permite dedicar más tiempo a resolver un problema y corregirse a sí mismos, podría mostrar resultados similares.
Destacando el modelo o1 centrado en la inferencia de OpenAI, que utiliza cálculo en tiempo de prueba, los investigadores afirmaron que esta tecnología podría permitir que los modelos de IA muestren capacidades mejoradas a pesar de no realizar cambios en los datos de entrenamiento o en los métodos de entrenamiento previo. Sin embargo, hubo un problema. Dado que la mayoría de los modelos de inferencia son cerrados, no hay forma de saber qué estrategias se están utilizando.
Los investigadores utilizaron un estudio que realizó Google DeepMind y técnicas de ingeniería inversa para revelar exactamente cómo los desarrolladores de LLM pueden escalar el cálculo del tiempo de prueba posterior a la capacitación. Según el estudio de caso, el simple hecho de aumentar el tiempo de procesamiento no muestra una mejora significativa en el resultado de consultas complejas.
En cambio, los investigadores recomiendan utilizar un algoritmo de mejora automática que permita a los modelos de IA evaluar las respuestas en iteraciones posteriores e identificar y corregir errores potenciales. Además, utilizar un validador que los modelos puedan buscar puede mejorar aún más las respuestas. Estos verificadores pueden ser un modelo de recompensa aprendido o heurísticas codificadas.
Las técnicas más avanzadas pueden incluir un enfoque de mejor de N donde el modelo genera múltiples respuestas a cada problema y asigna una puntuación para juzgar cuál sería la más adecuada. Estos métodos pueden combinarse con un modelo de recompensa. La búsqueda vectorial, que prioriza el razonamiento paso a paso y asigna puntuaciones a cada paso, es otra estrategia destacada por los investigadores.
Utilizando las estrategias anteriores, los investigadores de Hugging Face pudieron utilizar… Llama 3B SLM y hacerlo superar al Llama 70B, un modelo mucho más grande, en el estándar MATH-500.