A medida que la cantidad y las capacidades de los modelos de inteligencia artificial (IA) se expanden rápidamente, las empresas enfrentan un desafío cada vez más complejo: cómo evaluar y seleccionar de manera efectiva el modelo correcto. Modelos de lenguajes grandes (LLM) Para sus necesidades.
Con el reciente lanzamiento de Meta's Llama 3.2 y la proliferación de modelos similares GoogleGemma W. microsoftAhora bien, el paisaje es más diverso (y más complejo) que nunca. A medida que las organizaciones buscan aprovechar estas herramientas, deben navegar por un laberinto de consideraciones para encontrar las soluciones que mejor se adapten a sus requisitos únicos.
CTO y cofundador de Iris.ai.
Más allá de las métricas tradicionales
Las métricas y clasificaciones disponibles públicamente a menudo no reflejan la efectividad del modelo en el mundo real. Aplicacionesespecialmente para organizaciones que buscan aprovechar el conocimiento profundo encerrado en sus silos de datos no estructurados. Las métricas de evaluación tradicionales, aunque científicamente precisas, pueden resultar engañosas o irrelevantes para los casos de uso comercial.
Consideremos la perplejidad, una métrica común que mide qué tan bien un modelo predice una muestra de texto. Aunque se usa ampliamente en el mundo académico, la perplejidad a menudo está débilmente relacionada con la utilidad real en escenarios comerciales, donde el valor real radica en la capacidad del modelo para comprender, contextualizar y sacar a la luz conocimientos procesables a partir de contenido complejo de un dominio específico.
Las organizaciones necesitan modelos que puedan navegar por la jerga de la industria, comprender las relaciones matizadas entre conceptos y extraer patrones significativos de su panorama de datos único, capacidades que las métricas tradicionales no logran capturar. El modelo puede lograr excelentes grados de incertidumbre y al mismo tiempo no generar respuestas prácticas y favorables a las empresas.
Del mismo modo, las puntuaciones BLEU (Sección de Evaluación Bilingüe), desarrolladas originalmente para la traducción automática, a veces se utilizan para evaluar el resultado de los modelos lingüísticos frente a textos de referencia. Sin embargo, en un trabajo En contextos donde se valoran la creatividad y la resolución de problemas, el estricto cumplimiento de los textos de referencia puede resultar contraproducente. Servicio al cliente chatbot que solo pueden responder a través de scripts previamente aprobados (que funcionarán bien en BLEU) pueden tener un desempeño deficiente en interacciones reales con clientes donde la flexibilidad y la comprensión del contexto son fundamentales.
El dilema de la calidad de los datos
Otro desafío para la evaluación de modelos proviene de las fuentes de datos de capacitación. mayoría Código abierto Los modelos se entrenan en gran medida con datos sintéticos, a menudo generados por modelos avanzados como GPT-4. Si bien este enfoque permite un rápido desarrollo e iteración, plantea varios problemas potenciales. Es posible que los datos sintéticos no reflejen completamente las complejidades de los escenarios del mundo real y su naturaleza general a menudo no se alinea con las necesidades comerciales especializadas.
Además, cuando los modelos se evalúan utilizando datos sintéticos, especialmente datos generados por otros modelos lingüísticos, existe el riesgo de crear un circuito de retroalimentación que se refuerza a sí mismo y que puede enmascarar limitaciones importantes. Los modelos entrenados con datos sintéticos pueden aprender a replicar los artefactos y patrones del modelo generativo en lugar de desarrollar una verdadera comprensión de los conceptos subyacentes. Esto crea una situación particularmente difícil en la que las métricas de evaluación pueden mostrar un desempeño sólido simplemente porque el modelo ha aprendido a imitar las peculiaridades y los sesgos estilísticos del generador de datos sintéticos en lugar de demostrar una verdadera capacidad. Cuando la capacitación y la evaluación se basan en datos sintéticos, estos sesgos pueden magnificarse y ser difíciles de detectar.
Para muchos casos de negocios, los modelos deben ajustarse tanto en los datos de la industria como del dominio para lograr un rendimiento óptimo. Esto ofrece muchas ventajas, incluido un mejor rendimiento en tareas especializadas y una mejor alineación con los requisitos específicos de la empresa. Sin embargo, el ajuste no está exento de desafíos. El proceso requiere datos de alta calidad y específicos del dominio, puede consumir muchos recursos y ser técnicamente desafiante.
Comprender la sensibilidad al contexto
Los diferentes modelos de lenguaje exhiben diferentes niveles de rendimiento en diferentes tipos de tareas, y estas diferencias afectan en gran medida su aplicabilidad en diferentes escenarios comerciales. Un factor crítico para evaluar la sensibilidad al contexto es comprender cómo funcionan los modelos con datos sintéticos versus datos del mundo real. Los modelos que muestran un buen rendimiento en entornos sintéticos controlados pueden verse afectados cuando se enfrentan a la naturaleza más caótica y ambigua de las comunicaciones empresariales reales. Esta disparidad se vuelve particularmente evidente en campos especializados donde los datos sintéticos de capacitación pueden no ser capaces de capturar la complejidad y los matices de las interacciones profesionales.
Los modelos de llamas han ganado reconocimiento por su fuerte preservación del contexto y por sobresalir en tareas que requieren un pensamiento coherente y amplio. Esto lo hace particularmente efectivo para aplicaciones que necesitan un contexto consistente a través de interacciones largas, como escenarios complejos de soporte al cliente o discusiones técnicas detalladas.
Por el contrario, los modelos GEMMA, aunque fiables en muchas aplicaciones de propósito general, pueden tener dificultades en tareas cognitivas profundas que requieren experiencia especializada. Esta limitación puede ser especialmente problemática para empresas en áreas como los campos legal, médico o técnico donde una comprensión profunda y precisa es esencial. Las formas Phi ofrecen otra consideración, ya que a veces pueden desviarse de las instrucciones dadas. Si bien esta propiedad puede convertirlos en excelentes candidatos para tareas creativas, requiere una consideración cuidadosa para aplicaciones donde el estricto cumplimiento de las pautas es esencial, como en industrias reguladas o aplicaciones críticas para la seguridad.
Desarrollar un marco de evaluación integral
Ante estos desafíos, las empresas deben desarrollar marcos de evaluación que vayan más allá de simples medidas de desempeño. El desempeño de una tarea específica debe evaluarse en función de escenarios directamente relacionados con las necesidades comerciales. Consideraciones operativas, incluidos requisitos técnicos, Infraestructura Los requisitos y la escalabilidad juegan un papel crucial. Además, no se puede pasar por alto el cumplimiento y la gestión de riesgos, especialmente en industrias reguladas donde el cumplimiento de directrices específicas es obligatorio.
Las empresas también deberían considerar implementar un monitoreo continuo para detectar cuando el desempeño del modelo se desvía de los estándares esperados en los entornos de producción. Esto suele ser más valioso que los resultados iniciales de las pruebas comparativas. La creación de pruebas que reflejen escenarios comerciales reales y las interacciones de los usuarios, en lugar de depender únicamente de conjuntos de datos académicos estandarizados, puede proporcionar información más útil sobre el valor potencial del modelo.
como Herramientas de inteligencia artificial A medida que continúan replicándose y difundiéndose, las estrategias comerciales para evaluarlas y adoptarlas deben volverse cada vez más precisas. Aunque no existe un enfoque único para la evaluación de modelos que se adapte a todas las necesidades, comprender las limitaciones de las métricas actuales, la importancia de la calidad de los datos y la diferente sensibilidad contextual de los diferentes modelos puede guiar a las organizaciones a elegir las soluciones que mejor se adapten a ellas. Al diseñar marcos de evaluación, las organizaciones deben considerar las fuentes de datos utilizadas para las pruebas. Depender demasiado de datos sintéticos para la evaluación puede crear una falsa sensación de capacidad del modelo. Las mejores prácticas incluyen mantener un conjunto de pruebas diverso que combine ejemplos sintéticos y del mundo real, prestando especial atención a identificar y monitorear cualquier patrón artificial o sesgo que pueda estar presente en los datos sintéticos.
Evaluar un modelo exitoso consiste en darse cuenta de que los estándares y métricas disponibles públicamente son solo el comienzo. Las pruebas en el mundo real, la evaluación de dominios específicos y una comprensión clara de los requisitos comerciales son esenciales para cualquier proceso de selección de modelos eficaz. Al adoptar un enfoque de evaluación reflexivo y sistemático, las empresas pueden navegar por sus opciones de IA y determinar qué modelos satisfacen mejor sus necesidades.
Enumeramos los mejores modelos de lenguajes grandes (LLM) para programación.
Este artículo se produjo como parte del canal Expert Insights de TechRadarPro, donde mostramos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro