Categories
Featured

Una guía empresarial para evaluar modelos lingüísticos.

[ad_1]

A medida que la cantidad y las capacidades de los modelos de inteligencia artificial (IA) se expanden rápidamente, las empresas enfrentan un desafío cada vez más complejo: cómo evaluar y seleccionar de manera efectiva el modelo correcto. Modelos de lenguajes grandes (LLM) Para sus necesidades.

Con el reciente lanzamiento de Meta's Llama 3.2 y la proliferación de modelos similares GoogleGemma W. microsoftAhora bien, el paisaje es más diverso (y más complejo) que nunca. A medida que las organizaciones buscan aprovechar estas herramientas, deben navegar por un laberinto de consideraciones para encontrar las soluciones que mejor se adapten a sus requisitos únicos.

Víctor Botev

CTO y cofundador de Iris.ai.

Más allá de las métricas tradicionales

[ad_2]

Source Article Link

Categories
Life Style

¿Se puede utilizar la inteligencia artificial para evaluar la calidad de la investigación?

[ad_1]

Ilustración de una figura humana ficticia sentada en una mesa escribiendo, y en la mesa se refleja una figura humana con una bata blanca

Ilustración: Neil Webb

¿Los cirujanos ardilla generan más impacto en las citas? La pregunta parece una tontería, o quizás el comienzo de un mal chiste. Pero la pregunta planteada por el científico de datos Mike Thelwall no fue una broma. Fue una prueba. Thelwall, que trabaja en la Universidad de Sheffield en el Reino Unido, ha estado evaluando la capacidad de los modelos de lenguaje grande (LLM). Evaluar trabajos académicos según estándares. Después de enviar una versión personalizada de ChatGPT a los estándares REF, incorporó 51 de su propio trabajo de investigación al modelo y se sorprendió por la capacidad del chatbot para producir informes razonables. “No hay nada en los informes que indique que no fueron escritos por un experto humano”, afirma. “Este es un logro sorprendente”.

Sin embargo, la hoja de ardilla realmente confundió al modelo. Thelwall creó el artículo tomando uno de sus manuscritos rechazados sobre si los cirujanos varones generan más efectos de citación que las cirujanas y, para hacerlo absurdo, reemplazó “masculino” por “ardilla”, “femenino” por “humano” y cualquier referencia. a género. Lo cambia a “especie” a lo largo del artículo. Su modelo ChatGPT no pudo determinar si los “cirujanos ardilla” no eran reales durante la evaluación, y el chatbot le dio al artículo una puntuación alta.

Thelwall también descubrió que el modelo no fue particularmente exitoso en la aplicación de la puntuación basada en las directrices del Marco de Excelencia en Investigación a los 50 artículos evaluados. Concluyó que, aunque el modelo podía producir informes que parecían auténticos, no podía evaluar la calidad.

El rápido aumento de la inteligencia artificial (IA) generativa como ChatGPT y los generadores de imágenes como DALL-E ha aumentado los debates sobre dónde podría encajar la IA en la evaluación de la investigación. Estudiar Thelwall1El estudio publicado en mayo pasado es sólo una pieza del rompecabezas que académicos, instituciones de investigación y financiadores están tratando de armar. El estudio se produce cuando los investigadores también están lidiando con muchas otras formas en que la inteligencia artificial está impactando la ciencia y las pautas en desarrollo que surgen en torno a su uso. Sin embargo, estos debates rara vez se han centrado en brindar orientación sobre cómo se puede utilizar la IA para evaluar la calidad de la investigación. “Esta es la próxima frontera”, afirma Gitanjali Yadav, biólogo estructural del Instituto Nacional Indio de Investigación del Genoma Vegetal en Nueva Delhi y miembro del Grupo de Trabajo de Inteligencia Artificial de la Alianza para el Avance de la Evaluación de la Investigación, una iniciativa global para mejorar prácticas de evaluación de la investigación.

Vale la pena señalar que el auge de la IA también coincide con crecientes llamados a repensar cómo se evalúan los resultados de la investigación. Durante la última década, ha habido llamados a alejarse de las métricas basadas en publicaciones, como los factores de impacto de las revistas y el recuento de citas, que han demostrado ser poco confiables. Vulnerable a la manipulación y al sesgoIncorporar la IA a este proceso en un momento como este brinda la oportunidad de integrarla en nuevos mecanismos para comprender y medir la calidad y el impacto de la investigación. Pero también plantea preguntas importantes sobre si la IA es capaz de ayudar plenamente a evaluar la investigación o si tiene el potencial de exacerbar los problemas e incluso crear más problemas.

Evaluaciones de calidad

Es difícil definir la investigación de calidad, aunque existe un consenso general de que una buena investigación depende de la validez, la precisión, la originalidad y el impacto. Existe una amplia gama de mecanismos, cada uno de los cuales opera en diferentes niveles del ecosistema de investigación, para evaluar estos atributos, y una infinidad de formas de hacerlo. La mayor parte de la evaluación de la calidad de la investigación ocurre en el proceso de revisión por pares, que en muchos casos es la primera revisión de calidad externa realizada sobre una nueva pieza científica. Muchas revistas científicas utilizan el proceso de revisión por pares para evaluar la calidad de la investigación. Un conjunto de herramientas de inteligencia artificial Para completar este proceso durante algún tiempo, existe inteligencia artificial para hacer coincidir los manuscritos con los revisores adecuados, algoritmos que detectan plagio y verifican fallas estadísticas y otras herramientas destinadas a mejorar la integridad mediante la detección de manipulación de datos.

Recientemente, el auge de la IA generativa ha provocado una ola de investigaciones destinadas a explorar hasta qué punto el LLM puede ayudar a la revisión por pares y si los científicos confían en estas herramientas para hacerlo. Algunos editores permiten que la IA ayude en la preparación del manuscrito, si se divulga lo suficiente, pero no permiten su uso en la revisión por pares. Sin embargo, existe una creciente creencia entre los académicos en el poder de estas herramientas, especialmente aquellas basadas en el procesamiento del lenguaje natural y los programas LLM.

Cinco barras relativas que muestran las respuestas a una encuesta de investigadores que utilizaron la herramienta de inteligencia artificial para generar comentarios sobre manuscritos de investigación.

Fuente: Referencia 2

Un estudio publicado en julio de este año2En un estudio realizado por el estudiante de doctorado en informática Weixin Liang en el laboratorio del científico de datos biomédicos James Zhou en la Universidad de Stanford en California, se evaluó la capacidad de un programa LLM, GPT-4, para proporcionar retroalimentación sobre manuscritos. El estudio pidió a los investigadores que cargaran un manuscrito y lo evaluaran mediante su modelo de IA. Luego, los investigadores completaron un cuestionario para evaluar los comentarios y compararlos con los revisores humanos. Recibió 308 respuestas, y más de la mitad describieron las reseñas generadas por IA como “útiles” o “muy útiles”. Pero el estudio destacó algunos problemas con estas observaciones: a veces eran generales y tenían dificultades para brindar críticas profundas.

Zhou cree que esto no excluye necesariamente el uso de tales herramientas en determinadas situaciones. Un ejemplo que citó son los investigadores que inician su carrera y que trabajan en el primer borrador de un trabajo de investigación. Pueden cargar un borrador en un programa LLM dedicado y recibir comentarios sobre deficiencias o errores en su borrador. Pero dada la naturaleza tediosa y algo repetitiva de la revisión por pares, algunos académicos temen que haya una tendencia a depender del resultado de un sistema de inteligencia artificial generativo capaz de proporcionar informes. “No hay gloria ni financiación asociada con la revisión por pares”, dice Elizabeth Judd, jefa de cultura y evaluación de la investigación en la Universidad de Loughborough en el Reino Unido. “Simplemente se considera un deber científico”. Ya existe evidencia de que los revisores pares Utilice ChatGPT y otros chatbots hasta cierto puntoA pesar de las reglas marcadas por algunos editores de revistas.

Thelwall cree que la IA puede hacer más para ayudar a los revisores pares a evaluar la calidad de la investigación, pero hay una razón por la que avanza con lentitud. “Sólo necesitamos muchas pruebas”, afirma, “y no sólo pruebas técnicas, sino también pruebas prácticas, en las que tengamos la confianza de que, si presentamos la IA a los revisores, por ejemplo, no la harán mal uso”.

Yadav considera que la IA ahorra tiempo y ha trabajado con ella para ayudar a evaluar rápidamente imágenes de vida silvestre tomadas con cámaras de campo en la India, pero la revisión por pares es demasiado importante para la comunidad científica como para dejarla en manos de robots. “Personalmente, me opongo completamente a que la IA sea revisada por pares”, afirma.

Proporcionando calidad

Uno de los beneficios más discutidos del uso de la IA es la idea de que puede ahorrar tiempo. Esto es particularmente evidente en los sistemas institucionales y nacionales de evaluación de la investigación, algunos de los cuales han incorporado inteligencia artificial. Por ejemplo, un financiador en Australia, el Consejo Nacional de Investigación Médica y de Salud (NHMRC), ya está utilizando IA a través de un “modelo híbrido que combina técnicas de aprendizaje automático y optimización matemática” para identificar revisores pares apropiados para juzgar las propuestas de subvención. El sistema ayuda a eliminar uno de los cuellos de botella administrativos en el proceso de evaluación, pero ahí es donde termina el uso de la IA. Un portavoz del Consejo Nacional de Investigación Médica y de Salud dice que la agencia “no utiliza inteligencia artificial, de ninguna manera, para ayudar directamente a evaluar la calidad de la investigación” en sí.

Pero incluso el uso de la IA para dicho apoyo administrativo podría suponer un importante ahorro de recursos, especialmente para evaluaciones nacionales de gran envergadura como el Marco de Evaluación de la Investigación. Se sabe que este ejercicio requiere mucho tiempo para los investigadores, dice Thelwall. Más de 1.000 académicos ayudan a evaluar la calidad de la investigación como parte de la evaluación de la investigación, y les lleva alrededor de medio año completarla.

“Si podemos automatizar las evaluaciones, supondremos un enorme aumento de la productividad”, afirma Thelwall. Existe un potencial de ahorro enorme: se estimó que la evaluación más reciente realizada en 2021 costó £471 millones (USD 618 millones).

Asimismo, Tim Fowler, director ejecutivo de la Comisión de Educación Superior del gobierno, describió la evaluación de los investigadores de Nueva Zelanda, o el Fondo de Investigación Basado en el Rendimiento, como un ejercicio “concienzudo”. En este ejercicio, los académicos someten sus expedientes a evaluación, lo que les impone una pesada carga a ellos y a las instituciones. En abril, el gobierno abolió este fondo y se encargó a un grupo de trabajo presentar un nuevo plan para febrero de 2025.

Estos ejemplos señalan el gran potencial de la IA para crear una mayor eficiencia, al menos para los grandes sistemas y procesos de evaluación burocráticos. Al mismo tiempo, la tecnología evoluciona a medida que las opiniones sobre lo que constituye la calidad de la investigación evolucionan y se vuelven más precisas. “La forma en que se definía la calidad de la investigación a principios del siglo XX no es como se define ahora”, dice Marnie Hughes-Warrington, vicepresidenta adjunta de investigación y empresa de la Universidad de Australia del Sur en Adelaida. Hughes-Warrington es miembro del Grupo de Transición de Excelencia en Investigación de Australia, que está examinando el futuro del ejercicio de evaluación del país después de que una revisión realizada en 2021 descubriera que suponía una carga demasiado grande para las universidades. Ella dice que la comunidad investigadora reconoce cada vez más la necesidad de mejorar la calidad de la investigación. Evaluar más “resultados de investigación no tradicionales” -como documentos políticos, obras creativas y exposiciones- y más allá de eso, hasta los impactos sociales y económicos.

A medida que las conversaciones se llevan a cabo junto con el auge de la IA, tiene sentido que las nuevas herramientas encajen en enfoques refinados para evaluar la calidad de la investigación. Por ejemplo, Hughes-Warrington señala cómo la IA ya se está utilizando para detectar manipulación de fotografías en revistas o para recopilar datos de sistemas utilizados para identificar de forma única a investigadores y documentos. La aplicación de este tipo de métodos sería coherente con la misión de instituciones como universidades y organismos nacionales. “¿Por qué las organizaciones, impulsadas por la curiosidad y la investigación, no implementan nuevas formas de hacer las cosas?”, pregunta.

Sin embargo, Hughes-Warrington también destaca áreas donde la integración de la IA puede encontrar resistencia. Hay preocupaciones sobre la privacidad, los derechos de autor y la seguridad de los datos que deben reconocerse, sesgos inherentes a las herramientas que deben superarse y la necesidad de considerar el contexto en el que se llevan a cabo las evaluaciones de las investigaciones, por ejemplo, cómo varían los efectos entre disciplinas, instituciones y países.

Gadd no se opone a la incorporación de la IA y dice que la ha visto surgir con más frecuencia en los debates sobre la calidad de la investigación. Pero advierte que los investigadores son ya una de las profesiones más valoradas del mundo. “Mi opinión general sobre esto es que estamos evaluando mucho”, dijo. “¿Estamos buscando utilizar la IA para resolver un problema que nosotros mismos hemos creado?”.

Después de haber visto cómo se realizan las evaluaciones basadas en bibliometría Podría perjudicar al sectorDado que métricas como los factores de impacto de las revistas se utilizan indebidamente como indicadores de la calidad y se demuestra que frenan la diversidad y los investigadores que inician su carrera, a Gad le preocupa cómo se implementará la IA, especialmente si los modelos se entrenan con estas mismas métricas. Las decisiones sobre la asignación de ascensos, financiación u otras recompensas siempre necesitarán una participación mucho más humana, afirma. “Hay que tener mucho cuidado”, dice, a la hora de recurrir a la tecnología “para tomar decisiones que afectarán la vida de las personas”.

Jade ha trabajado extensamente en el desarrollo de SCOPE, un marco para evaluar la investigación responsable de la Red Internacional de Sociedades de Gestión de la Investigación, una organización global que reúne a las sociedades de gestión de la investigación para coordinar actividades y compartir conocimientos en este campo. Uno de los principios clave del plan es “evaluar sólo cuando sea necesario”, afirma, y ​​en esto puede haber una lección sobre cómo pensar en la integración de la IA. “Si evaluamos menos, podemos hacerlo con un estándar más alto”, afirma. “Quizás” la IA pueda respaldar este proceso, pero “muchos de los argumentos y preocupaciones que teníamos sobre la IA, los teníamos sobre la bibliometría”.

[ad_2]

Source Article Link

Categories
Computers

Cómo Antonio Pierce de los Raiders construyó camaradería al evaluar los niveles de condición física de sus entrenadores

[ad_1]

Costa Mesa, California— Asaltantes de Las Vegas Los jugadores se presentaron al primer día del programa de temporada baja esta primavera y no podían creer lo que estaban viendo en la sala de filmación.

Sus entrenadores asistentes se estiran… y luego hacen la misma prueba de condición física por la que pasan los jugadores.

“Los jugadores se rieron mucho. Rob (Ryan) salió al campo sin camiseta y con el estómago expuesto. Teníamos a Marvin Lewis, de 65 años, y Joe Philbin en la bicicleta”, dijo el entrenador Antonio Pierce la semana pasada. el video compartido con los jugadores.

“Luego había varios jugadores que jugaban en la liga pensando que todavía eran corredores rápidos, pero se quedaron cortos”.

Pierce advirtió temprano a sus 28 entrenadores en la postemporada que serían evaluados en abril. Ryan quedó atónito.

“Oh, Dios mío… fue impactante”, dijo Ryan, el entrenador asistente de backs defensivos de los Raiders, de 61 años.

Pierce simplemente quería que sus entrenadores estuvieran más sanos y unidos como lo hacían los jugadores. Creía que sus jugadores recibirían un mensaje de todas estas risas.

“Cuando miras a los entrenadores en Liga Nacional de Fútbol“La salud es probablemente la preocupación número uno. El nivel de estrés, el aumento de peso, la falta de oportunidades para hacer ejercicio… Quería desafiar a nuestros entrenadores, y también pensé que sería bueno para nuestros jugadores ver el compromiso de nuestros los entrenadores muestran durante la temporada baja”, dijo Pierce.

Era una versión en miniatura de una prueba de aptitud física para los jugadores, con carreras a intervalos, ejercicios en el campo y levantamiento de pesas.

“Este es mi decimosexto año en la liga y nunca he sido parte de las pruebas de condición física del cuerpo técnico”, dijo el entrenador de alas cerradas Luke Stickel, quien entrenó con el equipo. Osos de chicago La temporada pasada y pasó las diez temporadas anteriores con Titanes de Tennessee“Pero fue genial. Me gustó el mensaje que envió a nuestro equipo: si vamos a responsabilizar a nuestros jugadores de mantenerse en forma, será mejor que al menos estemos en buena forma.

“Y fue divertido ver toda esta atmósfera competitiva fluyendo entre todos nosotros. Me recordó mis días como jugador en la universidad”.

Los entrenadores mayores entrenaron tan bien como los más jóvenes, aunque no se les pidió que se esforzaran tanto en la prueba.

“Fue genial. Tengo dos rodillas reemplazadas y dos caderas reemplazadas, así que pude andar en bicicleta. Los entrenadores se divirtieron mucho. Hubo mucha camaradería, viendo a todos entrenar cada mañana para eso. Fue genial. “, dijo el entrenador asistente Marvin Lewis.

Excavar más hondo

Ve más profundo

El mariscal de campo de los Raiders, Antonio Pierce, y los tres ex entrenadores de la NFL que son sus mentores

De hecho, Ryan perdió ocho libras en dos meses de entrenamiento.

“El chico me obligó a hacerlo, así que comencé a hacer ejercicio un poco todos los días un par de meses antes del evento”, dijo Ryan. “Me dejaron subirme a la bicicleta en lugar de lesionarme. Fue genial y, de hecho, perdí algo de peso como resultado del trato. Cuando terminó, fue un momento de orgullo.

“(El entrenador de fuerza y ​​acondicionamiento) AJ (Neibel) y su personal siempre estuvieron atentos en caso de que alguien sufriera un ataque cardíaco, pero estuvo bien”.


Rob Ryan dijo que perdió ocho libras mientras entrenaba para el examen de aptitud física de Antonio Pierce para todos los entrenadores de los Raiders. (Kirby Lee/USA Today)

A los jugadores les encanta hacer tacleadas. Thayer Munford Jr. Simplemente estamos agradecidos por el valor del entretenimiento puro.

“Me moría viendo correr a estos ancianos”, dijo. “Los otros ancianos en bicicleta, etc., pensaban que realmente estaban corriendo, pero no era así. Big Rob era el más divertido. Pero todos parecieron pasar la prueba con gran éxito”.

Pierce dijo que los entrenadores estaban nerviosos antes del partido.

“Sus ritmos cardíacos aumentaron, no fue por su estado físico, sino por su estrés y ansiedad”, dijo Pearce con una sonrisa. “Pensé que era bueno para ellos sentir lo que sienten la mayoría de los jugadores. Los atletas están en buena forma pero siempre que hay pruebas todo sube un poquito”.

“Lo primero que intentamos enseñarles es a reducir el ritmo cardíaco y mental y jugar más rápido y con mayor fluidez. Esta fue una buena oportunidad y un ejemplo para demostrar lo mismo”.

Boletín de la ciudad de alcance

Boletín de la ciudad de alcance

Actualizaciones diarias gratuitas de la NFL directamente en su bandeja de entrada.

Actualizaciones diarias gratuitas de la NFL directamente en su bandeja de entrada.

suscripciónCompre el boletín informativo de Scoop City

Así como los equipos quieren una plantilla de jugadores que se preocupen unos por otros y jueguen unos para otros, Pierce cree que tiene un personal unificado listo para ayudar a los Raiders a superar el récord de 8-9 del año pasado (5-4 bajo Pierce). Cosas como pruebas de aptitud física y salidas grupales a los juegos de hockey de los Vegas Golden Knights solo sirven para solidificar esa relación.

“Veo una estrecha cohesión entre nuestro personal”, dijo Pierce. “Pasan juntos, hacen cosas en la postemporada, salen a cenar juntos aquí en el campamento. Tendremos algunos momentos tensos en los que no estamos de acuerdo, pero cuándo. tienes ese vínculo, no diferente al de los jugadores, es fácil superarlo y comprender que no te están faltando el respeto y así son las cosas si viene de Lucas (Jitsi), Patricio (Graham), Tom (McMahon) “O a mí mismo. No es nada malicioso, es simplemente la forma en que se debe hacer”.

El negocio ha ido bien con 14 nuevos asistentes en el personal esta temporada.

“AP siempre está buscando formas de unir al personal”, dijo Ryan. “Es una gran persona y un líder natural, por eso reúne a nuestros entrenadores de ambos lados, trabajamos juntos y nos enfrentamos cuando el personal se reúne. , realmente desarrolla un sentido de camaradería”. “Somos una unidad cohesiva”.

El régimen anterior claramente tenía problemas en esta área, y ahora se fomenta el individualismo siempre que se trabaje duro. El entrenador anterior Josh McDaniels era un microgerente que tenía dificultades para comunicarse con los jugadores, y Pierce es todo lo contrario. El test físico de los entrenadores ha roto el hielo con nuevos asistentes y nuevos jugadores esta temporada.

Excavar más hondo

Ve más profundo

Gardner Minshew hace su movimiento y lo que piensa sobre la primera semana del campamento de los Raiders

“Esta generación de entrenadores nos ha dado una fuerza que no habíamos tenido en los últimos años”, dijo Munford. “Este personal tiene más energía. Para mí, no sólo más que mis entrenadores del año pasado, sino también mis entrenadores universitarios. Tienen mucha pasión por lo que hacen y nunca ignoran nada”.

“Todos los amamos por eso. Podemos ver que se preocupan por nosotros”.

Algunos entrenadores también se mostraron muy interesados ​​en los resultados.

“Recuerdo haber ganado cada repetición”, dijo Stickel, quien fue mediocampista y capitán del equipo de Princeton que ganó el campeonato de la Ivy League en 2006. “Tienes que preguntarles a los demás muchachos cómo era la parte posterior de mi cabeza. Estaba brillando. Era simplemente salir y poder competir con tus compañeros de trabajo”. “Es muy interesante”.


El entrenador de alas cerradas, Luke Stickel (derecha), trabajando con el novato Brock Powers, afirma que dominó durante la prueba de aptitud física de los entrenadores. (Ethan Miller/Getty Images)

Entonces… ¿todos los entrenadores realmente pasaron la prueba de aptitud física?

Ahhhhhh “Sí”, dijo Pierce. “Un entrenador terminó el juego, pero cojeaba. Cojeaba en las últimas 10 yardas pero llegó allí”.

Cada entrenador también finalizó la prueba con una gran sonrisa.

“Cuando AP te dice que sonrías cuando entres al edificio, lo dice en serio. Concéntrate en la pelota, pero ámala, y él crea un ambiente divertido y sé que tendrá éxito”, Ryan dicho.

¿Cosas como una prueba de aptitud física para los entrenadores, un ambiente divertido, una plantilla y un cuerpo técnico totalmente comprometido conducirán a la tercera aparición de los Raiders en los playoffs en 22 años?

Esta es la próxima prueba.

“La cultura que AP ha establecido, no sólo en la plantilla, sino también en el cuerpo técnico, es muy especial”, dijo Stickel. “Hablamos de hermandad y camaradería todo el tiempo. Es un mensaje que sé que, ofensivamente, Luke Getsy repetirá todo el tiempo. Y cuando es importante para los muchachos que lideran la organización, comienza a ser importante para ti. Simplemente gotea.”

“Se construye una gran cultura y muchas veces se obtienen excelentes resultados. Y puedo asegurarles que estamos construyendo una gran cultura en este momento”.

(Foto superior de Antonio Pierce: Rick Tapia/Getty Images)

[ad_2]

Source Article Link

Categories
News

Anthropic está financiando una iniciativa para desarrollar nuevos estándares de IA de terceros para evaluar modelos de IA

[ad_1]

antrópico Anthropic anunció el martes una nueva iniciativa para desarrollar nuevos estándares para probar las capacidades de modelos avanzados de inteligencia artificial. La empresa de inteligencia artificial financiará el proyecto y ha invitado a presentar solicitudes de entidades interesadas. La compañía dijo que los estándares actuales no son suficientes para probar completamente las capacidades y el impacto de los nuevos modelos de lenguajes grandes. Como resultado, existe la necesidad de desarrollar un nuevo conjunto de evaluaciones centradas en la seguridad, las capacidades avanzadas y el impacto social de la IA, dijo Anthropic.

Anthropic financiará nuevos estándares para modelos de inteligencia artificial

en la sala de redacción correoAnthropic destacó la necesidad de un sistema integral de evaluación de terceros para superar el alcance limitado de los estándares actuales. La compañía de IA anunció que a través de su iniciativa financiará organizaciones externas que quieran desarrollar nuevas evaluaciones de modelos de IA que se centren en la calidad y altos estándares de seguridad.

Para Anthropic, las áreas de alta prioridad incluyen tareas y preguntas que pueden medir los niveles de seguridad de IA (ASL) del LLM, las capacidades avanzadas para generar ideas y respuestas, así como el impacto social de estas capacidades.

En la categoría ASL, la compañía destacó varios criterios que incluyen la capacidad de los modelos de IA para ayudar o actuar de forma autónoma en la ejecución de ataques cibernéticos, la capacidad de los modelos para ayudar a crear o mejorar el conocimiento sobre riesgos químicos, biológicos, radiológicos y nucleares (CBRN). creación y evaluación de riesgos de seguridad Nacional, y más.

En cuanto a las capacidades avanzadas, Anthropic enfatizó que los estándares deberían poder evaluar el potencial de la IA para transformar la investigación científica, el compromiso y el rechazo hacia el daño y las capacidades multilingües. Además, la empresa de IA dijo que es necesario comprender el potencial del modelo de IA para impactar a la sociedad. Con este fin, las evaluaciones deben poder centrarse en conceptos como “sesgos dañinos, discriminación, dependencia excesiva, dependencia, apego, influencia psicológica, influencias económicas, homogeneidad y otras influencias sociales amplias”.

Además, la empresa de IA también enumeró algunos principios para buenas evaluaciones. Dijo que las evaluaciones no deberían estar disponibles en los datos de entrenamiento utilizados por la IA porque a menudo se convierten en una prueba de memorización para los modelos. También animó a mantener entre 1.000 y 10.000 tareas o preguntas para probar la inteligencia artificial. También pidió a las organizaciones que utilizaran expertos en la materia para crear tareas para probar el rendimiento en un dominio en particular.


Los enlaces de afiliados pueden generarse automáticamente; consulte Declaración de ética Para detalles.

[ad_2]

Source Article Link