Como cualquier modelo genAI, Google mellizo Las respuestas a veces pueden ser incorrectopero en este caso el motivo puede ser que quienes realizan la prueba no tienen la experiencia necesaria para comprobar su validez.
Según TechCrunch, la compañía que se propone mejorar la precisión de Gemini ahora hace que sus evaluadores evalúen las respuestas incluso si no tienen “conocimiento del dominio”.
El informe plantea dudas sobre el rigor y los estándares que Google dice que aplica a su prueba Gemini para garantizar su precisión. En la sección “Construir responsablemente” de Gemini 2.0 anuncioGoogle dijo que “trabaja con evaluadores confiables y expertos externos y realiza evaluaciones exhaustivas de riesgos, seguridad y garantía”. Se hace un énfasis razonable en evaluar las respuestas a contenidos sensibles y dañinos, pero se presta menos atención a las respuestas que no son necesariamente peligrosas pero sí inexactas.
Velocidad de la luz triturable
Google parece ignorar el problema de las alucinaciones y los errores simplemente agregando el descargo de responsabilidad de que “Géminis puede cometer errores, así que verifíquelo dos veces”, lo que efectivamente los exime de cualquier responsabilidad. Pero eso no explica por qué los humanos trabajan detrás de escena.
Anteriormente, GlobalLogic, una subsidiaria de Hitachi, instruyó a sus ingenieros y analistas puntuales a omitir una respuesta de Gemini que no entendieran completamente. “Si no tiene la experiencia en tareas (por ejemplo, programación, matemáticas) para evaluar este mensaje, omita esta tarea”, decían las instrucciones vistas por el medio.
Pero la semana pasada, GlobalLogic cambió sus instrucciones y dijo: “No debe omitir las indicaciones que requieren conocimientos especializados del dominio” y, en su lugar, “evalúe las partes de la instrucción que comprende” y tenga en cuenta que no tienen la experiencia necesaria en esa área. . Analízalos. En otras palabras, la experiencia no se considera un requisito previo para este trabajo.
Los contratistas ahora solo pueden omitir reclamos en los que “falta completamente información”, según TechCrunch, o que contienen contenido confidencial que requiere un formulario de consentimiento.