[ad_1]
¿Sabía que algunas de las personas más inteligentes de este planeta crean criterios para probar las habilidades de la inteligencia artificial en la repetición de la inteligencia humana? Bueno, la mayoría de los estándares de inteligencia artificial se completan significativamente ChatgptS GPT-4O, Google Géminis 1.5, e incluso nuevo O3-Mini realmente.
En el esfuerzo por crear el estándar más difícil posible, la IA de escala y el CAIS CAIS El último examen de la humanidadY es una prueba llamada “un nuevo estándar de inteligencia artificial que está diseñado para probar los límites del conocimiento de la inteligencia artificial dentro de los límites de la experiencia humana”.
No soy un genio de ninguna manera, pero eche un vistazo a algunas de estas preguntas y déjame decirte que es difícil deshacerse. En la medida en que las mentes más brillantes solo en este planeta se pueden responder. Este sorprendente grado de dificultad significa que al probar los modelos actuales de inteligencia artificial no solo podía responder menos del 10 por ciento de las preguntas correctamente.
El nombre original de la prueba fue la “última posición de la humanidad”, pero esto se cambió al examen, solo para deshacerse de la naturaleza ligeramente aterradora del concepto. Se enseñaron preguntas, ya que los accionistas expertos enfrentan más de 500 instituciones en 50 países que son las preguntas de pensamiento posibles más difíciles.
La reciente recopilación de datos de exámenes humanos consta de 3000 preguntas, y hemos elegido algunas muestras a continuación para mostrarle lo difícil que es. ¿Puedes aprobar el último examen de la humanidad? ¡buena suerte!
¿Eres más inteligente que Chatbot Amnisty International?
Una pregunta:
La tunna dentro de los apodiformes tiene un hueso oval doble doble doble, que es un sicopyid en la parte de robo del aire expandido, inserto cruzado. Caudae Depresión. ¿Cuántos tendones asociados con el hueso de sésamo? Responder con un número.
Una pregunta:
Presento el texto de la fuente hebrea unificada de Biblia Hebraica Stuttgartensia (Salmos 104: 7). Su tarea es distinguir entre clips cerrados y abiertos. Determine y enumere todos los clips cerrados (que terminan con una voz constante) basadas en la última investigación sobre la tradición de pronunciación en Tiberi en el hebreo escrito por académicos como Jeffrey Khan y Harun D. Las fuentes de mediana siglo, como los manuscritos de Carrett Copy, permitieron a los investigadores contemporáneos comprender mejores aspectos de la pronunciación hebrea bíblica en las tradiciones tiberiales, incluidas las características y funciones de Shewa y cualquier mensaje que se haya pronunciado como aún en los fines de los fines de los fines de los fines de clips.
¿Quieres pasar tu día?
Una pregunta:
En los mitos griegos, ¿quién fue el gran Jason?
¿Cómo lo hiciste? No hay defecto al decir “no es bueno”. No mentiré, no creo que haya entendido lo que me preguntaron sobre ese segundo.
¿Cuándo debemos entrar en pánico?
De acuerdo a Resultados iniciales Informé CAIS y escala AI, OpadaiGPT-4O alcanzó una precisión del 3.3 %en el último examen humanitario, mientras que Grok-2 alcanzó 3.8 %, Claude 3.5 soneto 4.3 %, Géminis 6.2 %, O1 9.1 %y Deepseek-R1 (puramente texto porque no multi-tasa) logró 9.4.4 %.
Curiosamente, la última prueba de humanidad es mucho más difícil para la inteligencia artificial que cualquier otro estándar allí, incluidas las opciones más populares, GPQA, Math, MMLU.
Entonces, ¿qué significa todo esto? Bueno, todavía estamos en modelos de inteligencia artificial infantil con funciones de pensamiento, y aunque O3-Mini de OpenAI no tomó este difícil estándar difícil, tardará mucho tiempo en que cualquier LLM llegue a completar el último examen de la humanidad.
Sin embargo, debe tenerse en cuenta que la inteligencia artificial se está desarrollando a un ritmo rápido, con nuevos empleos disponibles para los usuarios casi a diario. Solo esta semana Operai presentó al operadorEl primer agente internacional de Amnistía, y una gran promesa aparece en el futuro donde la IA puede automatizar tareas que requieren entrada humana. En la actualidad, ningún Amnistía Internacional puede abordar la finalización del último examen de la humanidad, pero cuando uno lo hace … bueno, podemos estar en problemas.
También te puede gustar
[ad_2]
Source Article Link