Los chatbots de IA más grandes tienden a difundir tonterías y la gente no siempre se da cuenta


Estudia las últimas y mejores ediciones de tres disciplinas. Chatbots de Inteligencia Artificial (IA). Muestra que son más propensos a generar respuestas incorrectas que a admitir su ignorancia. La evaluación también encontró que las personas no son buenas para detectar la enfermedad. Malas respuestas.

Se ha prestado mucha atención al hecho de que los grandes modelos de lenguaje (LLM) utilizados para ejecutar chatbots a veces hacen las cosas mal o “Alucinaciones” Respuestas extrañas a las preguntas.. José Hernández Orallo, del Instituto de Investigación de Inteligencia Artificial de Valencia en España, y sus colegas analizaron esos errores para ver cómo cambian a medida que los modelos crecen en tamaño, aprovechando más datos de entrenamiento, lo que implica más parámetros o toma de decisiones y nodos de alimentación. Más potencia informática. También rastrearon si la probabilidad de errores coincidía con las percepciones humanas sobre la dificultad de las preguntas y qué tan bien las personas eran capaces de identificar respuestas incorrectas. el estudio1 Fue publicado en naturaleza El 25 de septiembre.

El equipo descubrió que las versiones más grandes y precisas de los LLM son, Como era de esperar, más preciso.en gran parte porque se moldearon utilizando métodos de ajuste, como el aprendizaje por refuerzo a partir de la retroalimentación humana. Esta es una buena noticia. Pero son menos confiables: de todas las respuestas inexactas, la fracción de respuestas incorrectas aumentó, informó el equipo, porque es menos probable que los modelos eviten responder una pregunta, por ejemplo, diciendo que no saben o cambiando de tema. .

See also  Los únicos actores de Beverly Hills, 90210 que aparecerán en cada episodio.

“Hoy en día responden a casi todo. Esto significa más respuestas correctas, pero también incorrectas”, dice Hernández Orallo. En otras palabras, es más probable que los chatbots ofrezcan opiniones que van más allá de su conocimiento, dice Mike Hicks, un filósofo de la ciencia. y tecnología en la Universidad de Glasgow en el Reino Unido, que Sugiere el término mierda. Para describir el fenómeno.2. “Está mejorando en fingir que sabe”.

El resultado es que es probable que los usuarios comunes sobreestimen las capacidades de los chatbots, y eso es peligroso, dice Hernández Orallo.

Incorrecto y evitado

El equipo analizó tres familias de LLM: GPT abierto AIy LLaMA y BLOOM de Meta, un modelo de código abierto creado por el grupo académico BigScience. Para cada uno, observaron las primeras versiones prototipo de los modelos y perfeccionaron las versiones posteriores.

Probaron los modelos con miles de indicaciones que incluían preguntas sobre aritmética, anagramas, geografía y ciencia, así como estímulos que probaron la capacidad de los robots para transformar información, como hacer una lista en orden alfabético. También calificaron cuán difíciles eran percibidas las preguntas por los humanos; por ejemplo, una pregunta sobre Toronto, Canadá, fue calificada como más fácil que una pregunta sobre la ciudad más pequeña y menos conocida de Aquiles en México.

Como era de esperar, la precisión de las respuestas aumentó a medida que aumentaba el tamaño de los formularios revisados ​​y disminuyó a medida que aumentaba la dificultad de las preguntas. Aunque puede ser prudente que los modelos eviten responder preguntas muy difíciles, los investigadores no encontraron ninguna tendencia fuerte en esta dirección. Alternativamente, algunos modelos, como el GPT-4, respondieron a casi todo. La proporción de respuestas incorrectas entre las que eran incorrectas o se evitaban aumentó a medida que aumentaba el tamaño de los formularios, alcanzando más del 60% para muchos formularios duplicados.

See also  Los pedidos de chips de Apple indican una gran demanda del iPhone 16 con tecnología de inteligencia artificial

El equipo también descubrió que todos los modelos podían ocasionalmente equivocarse incluso en preguntas fáciles, lo que significa que no había una “zona de operación segura” en la que un usuario pudiera tener una gran confianza en las respuestas.

Luego, el equipo pidió a las personas que clasificaran las respuestas como correctas, incorrectas o evitadas. Sorprendentemente, las personas calificaron incorrectamente las respuestas inexactas como precisas (aproximadamente entre el 10% y el 40% de las veces) en preguntas fáciles y difíciles. “Los humanos no son capaces de supervisar estos modelos”, dice Hernández-Orallo.

Espacio seguro

Hernández-Uralo cree que los desarrolladores deberían mejorar el rendimiento de la IA en preguntas fáciles y alentar a los chatbots a negarse a responder preguntas difíciles, para que las personas puedan evaluar mejor las situaciones en las que los sistemas de IA probablemente sean confiables. “Necesitamos que los humanos entiendan: 'Puedo usarlo en esta área, no debería usarlo en esa área'”, dice.

Haga que los chatbots tengan más probabilidades de responder preguntas difíciles Se ve impresionante y se desempeña bien en las tablas de clasificación. Ese es un buen desempeño, pero no siempre es útil, dice Hernández-Uralo. “Todavía estoy muy sorprendido de que en las versiones modernas de algunos de estos modelos, incluido o1 de OpenAI, puedes pedirles que multipliquen dos números muy largos y obtienes una respuesta incorrecta”, dice. Esto debería poder solucionarse, añade. “Se puede establecer un umbral y, cuando la pregunta es difícil, [get the chatbot to] Diga: No, no lo sé.

See also  Peer-replication model aims to address science’s ‘reproducibility crisis’

“Hay algunos modelos que dirán: 'No lo sé' o 'No tengo suficiente información para responder a tu pregunta'”, dice Vipula Raut, científica informática de la Universidad de Carolina del Sur en Columbia. Todas las empresas de inteligencia artificial están trabajando arduamente para reducir las alucinaciones y los chatbots desarrollados para fines específicos, como el uso médico, a veces se optimizan para evitar que superen su base de conocimientos. Pero para las empresas que intentan vender chatbots multipropósito, “esto no es algo que normalmente quieran ofrecer a sus clientes”, añade.



Source Article Link

Leave a Comment