“Escribe una búsqueda del tesoro para mí”. “Portada de la canción 'Gangnam Style' de Psy al estilo de Adele.” “Haz un vídeo realista en primer plano de dos barcos piratas luchando entre sí mientras navegan dentro de una taza de café”. Incluso esta última petición no es una exageración: hoy Las mejores herramientas de inteligencia artificial La IA puede crear todas estas cosas y más en minutos, lo que hace que la IA parezca una especie de magia real en el mundo moderno.
Sabemos, por supuesto, que no es magia. De hecho, hay una enorme cantidad de trabajo, instrucción e información que se destina a los modelos que impulsan la GenAI y producen sus resultados. Los sistemas de IA deben entrenarse para aprender patrones a partir de datos: GPT-3, el modelo básico para chat gbtFue entrenado con 45 terabytes de datos de rastreo común, lo que equivale a unos 45 millones de documentos PDF de 100 páginas. De la misma manera que los humanos aprendemos de la experiencia, la capacitación ayuda a los modelos de IA a comprender y procesar mejor la información. Sólo entonces podrá hacer predicciones precisas, realizar tareas importantes y mejorar su rendimiento con el tiempo.
Esto significa que la calidad de la información que ingresamos en nuestras herramientas es crucial. Entonces, ¿cómo podemos asegurarnos de que estamos aprovechando la calidad de los datos para crear modelos prácticos de IA exitosos? Echemos un vistazo a esto.
Gerente de Operaciones de Northern Data Group.
Riesgos de datos incorrectos
Los buenos datos son precisos, relevantes, completos, diversos e imparciales. Es la columna vertebral detrás de una toma de decisiones eficaz, procesos operativos sólidos y, en este caso, resultados valiosos de la IA. Sin embargo, mantener una buena calidad es crucial. Datos La calidad de los datos es difícil. Una encuesta realizada por una plataforma de datos encontró que el 91% de los profesionales dice que la calidad de los datos tiene un impacto en su organización, mientras que solo el 23% ve la buena calidad de los datos como parte de la ética de su organización.
Los datos deficientes también suelen contener información limitada e incompleta que no refleja con precisión el mundo en general. Los sesgos resultantes pueden afectar la forma en que se recopilan, analizan e interpretan los datos y conducir a resultados injustos o incluso discriminatorios. cuando Amazonas En 2014, ABC creó una herramienta de contratación automatizada para ayudar a acelerar el proceso de contratación, y el equipo de software le proporcionó datos sobre el grupo actual de ingenieros de software de la empresa, que era en su mayoría hombres. El proyecto fue cancelado apenas un año después, cuando quedó claro que la herramienta discriminaba sistemáticamente a las candidatas. Otro ejemplo es microsoftTay ahora está cancelado robot de chatque se hizo famoso por hacer comentarios ofensivos sobre redes sociales Debido a los datos deficientes con los que fue entrenado.
Volviendo a la IA, los datos confusos o sesgados pueden tener un efecto igualmente desastroso en un modelo. productividadIntroducir datos mixtos o datos sintéticos de mala calidad en un modelo de IA y esperar que proporcione información clara y procesable es inútil; Como calentar un plato de pasta con letras en el microondas y esperar que salga con la etiqueta “El veloz zorro marrón salta sobre un perro perezoso”. Por lo tanto, la preparación de los datos, el estado de preparación y la calidad de los datos dentro de una organización es un obstáculo importante que hay que superar.
Alimenta el modelo de IA correctamente
Las investigaciones muestran que cuando se trata de estrategias de IA de empresas globales, solo el 13% de ellas están calificadas como líderes en términos de preparación de datos. Mientras tanto, el 30% está clasificado como perseguidor, el 40% como dependiente y el 17% como alarmantemente rezagado. Estas cifras deben cambiar si queremos que los datos respalden resultados exitosos de la IA en todo el mundo. Para garantizar una buena preparación de los datos, debemos recopilar datos completos y relevantes de fuentes confiables, limpiarlos para eliminar errores e inconsistencias, etiquetarlos con precisión y estandarizar sus formatos y métricas. Lo más importante es que debemos verificar y actualizar constantemente los datos para mantener su calidad.
En primer lugar, las empresas necesitan crear un catálogo de datos central, que reúna datos de diferentes almacenes y silos en un lugar organizado. Luego necesitan clasificar y organizar estos datos para que la información contextual empresarial sea más fácil de encontrar, utilizar y resaltar. A continuación, los ingenieros deben implementar un marco sólido de gobernanza de datos que incluya evaluaciones periódicas de la calidad de los datos. Los científicos de datos deben detectar y corregir constantemente inconsistencias, errores y valores faltantes dentro de los conjuntos de datos.
Finalmente, rastrear la cadena de datos implica desarrollar una comprensión clara de los orígenes de los datos, los pasos de procesamiento y los puntos de acceso. Este seguimiento garantiza la transparencia y la rendición de cuentas en caso de malos resultados. Esto es especialmente importante ante las crecientes preocupaciones sobre la privacidad de la IA.
Garantizar que los datos sean justos y seguros
Hoy en día, las consultas personalizadas de IA se están convirtiendo rápidamente en el nuevo secreto Google Pero no hay forma de que los usuarios puedan confiarles información privada si saben que será compartida o vendida. Según una investigación de Cisco, al 60% de los consumidores les preocupa cómo las organizaciones utilizan sus datos personales para fines de IA, mientras que casi dos tercios (65%) ya han perdido algo de confianza en las organizaciones como resultado del uso de la IA. Por lo tanto, independientemente de las preocupaciones regulatorias, todos tenemos la responsabilidad ética y de reputación de garantizar que la privacidad de los datos sea sólida cuando construimos y aprovechamos la tecnología de IA.
privacidad Proteger los datos personales significa garantizar que las personas comunes y corrientes que interactúan con herramientas y sistemas basados en inteligencia artificial (desde pacientes de atención médica hasta compradores en línea) tengan control sobre sus datos personales y puedan relajarse sabiendo que se están utilizando de manera responsable. En este caso, las empresas deben operar según el concepto de “privacidad por diseño”, donde su tecnología recopila sólo datos absolutamente necesarios, los almacena de forma segura y es transparente sobre su uso.
Una buena opción es anonimizar todos los datos que recopilas. De esta manera, puede reutilizarlos para capacitación adicional en modelos de IA sin comprometer la privacidad del cliente. Una vez que ya no necesite estos datos, puede eliminarlos para eliminar el riesgo de futuras infracciones. Esto puede parecer sencillo, pero es un paso que a menudo se olvida y que puede ahorrar mucho estrés, daños a la reputación e incluso multas regulatorias.
Mantenga la soberanía de los datos a la vanguardia
El cumplimiento de los requisitos reglamentarios es fundamental para cualquier organización. El tema de la residencia de datos es un foco de atención cada vez mayor en todo el mundo. En Europa, por ejemplo, el Reglamento General de Protección de Datos estipula que los datos de los ciudadanos de la UE deben estar ubicados en el Espacio Económico Europeo. Esto significa que usted o su pareja deben estar en el Espacio Económico Europeo. nubes Los socios necesitan centros de datos dentro de la región; si traslada datos a otra parte, corre el riesgo de violar la ley. La residencia de datos ya es una prioridad tanto para los reguladores como para los usuarios, y esta cuestión será cada vez más importante a medida que se introduzcan más regulaciones en todo el mundo.
Para las empresas, el cumplimiento significa comprar directamente instalaciones de almacenamiento de datos en ubicaciones específicas o asociarse con un proveedor especializado que ofrezca centros de datos en ubicaciones estratégicas. Basta preguntárselo al Foro Económico Mundial, que dice que “la columna vertebral de la IA soberana reside en una infraestructura digital sólida”. En pocas palabras, los centros de datos con capacidades informáticas de alto rendimiento, que operan bajo políticas que garantizan que los datos resultantes se almacenen y procesen localmente, son la base para el desarrollo y la implementación eficiente y compatible de tecnologías de IA en todo el mundo. No es del todo mágico, pero los resultados pueden ser igual de impresionantes.
Enumeramos los mejores chatbots de IA para empresas.
Este artículo se produjo como parte del canal Expert Insights de TechRadarPro, donde destacamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no reflejan necesariamente los puntos de vista de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro