¿Cuáles son las principales cosas que hace un ingeniero de aprendizaje automático moderno?
Parece una pregunta fácil con una respuesta sencilla:
Cree modelos de aprendizaje automático y analice datos.
De hecho, esta respuesta muchas veces no es correcta.
Uso efectivo de Datos La recopilación de datos es esencial para el éxito de cualquier negocio moderno. Sin embargo, convertir los datos en resultados comerciales tangibles requiere un viaje. Deben adquirirse, compartirse de forma segura y analizarse en su propio ciclo de vida de desarrollo.
Explosión Computación en la nube A mediados de la década de 2000, y las empresas adoptaron el aprendizaje automático una década después, este viaje abordó efectivamente un principio y un final. Pero desafortunadamente, las empresas a menudo enfrentan obstáculos intermedios relacionados con la calidad de los datos, que normalmente no están en el radar de la mayoría de los ejecutivos.
Consultor de Soluciones en Atacama.
Cómo afecta la mala calidad de los datos a las empresas
Los datos de mala calidad e inutilizables son una carga para quienes han llegado al final del viaje de los datos. Estos son los usuarios de los datos que los utilizan para construir modelos y contribuir a otras actividades generadoras de beneficios.
A menudo, se contrata a científicos de datos para crear modelos de aprendizaje automático y analizar datos, pero los datos incorrectos les impiden hacer algo así. Las organizaciones ponen mucho esfuerzo y cuidado en acceder a estos datos, pero a nadie se le ocurre comprobar si los datos que entran “en” el formulario son utilizables. Si los datos de entrada son defectuosos, los modelos y análisis de salida también lo serán.
Se estima que los científicos de datos dedican entre el 60 y el 80 por ciento de su tiempo a garantizar que los datos se limpien, para que los resultados de sus proyectos sean confiables. Este proceso de limpieza puede implicar adivinar el significado de los datos e inferir lagunas, y pueden descartar sin darse cuenta datos potencialmente valiosos de sus modelos. El resultado es frustrante e ineficiente porque estos datos sucios impiden que los científicos de datos hagan la parte valiosa de su trabajo: resolver problemas comerciales.
Este coste enorme, y a menudo invisible, ralentiza los proyectos y reduce sus resultados.
El problema se agrava cuando las tareas de limpieza de datos se realizan en silos repetitivos. El hecho de que una persona haya notado un problema en un proyecto y lo haya abordado no significa que haya logrado resolver el problema para todos sus colegas y sus proyectos.
Incluso si el equipo de ingeniería de datos puede realizar una limpieza exhaustiva, es posible que no pueda hacerlo de inmediato y que no comprenda completamente el contexto de la tarea y por qué lo está haciendo.
El impacto de la calidad de los datos en el aprendizaje automático
Los datos limpios son especialmente importantes para los proyectos de aprendizaje automático. Ya sean clasificaciones o regresión, aprendizaje supervisado o no supervisado, redes neuronales profundas o cuando un modelo de aprendizaje automático entra en una nueva fase de producción, sus creadores deben evaluar constantemente en función de nuevos datos.
Gestionar la distorsión de los datos para garantizar que el modelo sea eficaz y siga proporcionando valor empresarial es una parte esencial del ciclo de vida del aprendizaje automático. Después de todo, los datos son un panorama en constante cambio. Los sistemas fuente pueden consolidarse después de una adquisición, puede entrar en vigor una nueva gobernanza o puede cambiar el panorama empresarial.
Esto significa que es posible que las suposiciones anteriores de los datos ya no sean válidas. Si bien herramientas como Databricks/MLFlow, AWS Sagemaker o Azure ML Studio cubren la promoción, prueba y reentrenamiento de modelos de manera efectiva, son menos capaces de investigar qué parte de los datos cambió, por qué cambió y luego corregir los problemas, que pueden ser engorroso y largo.
Estar basado en datos evita que surjan estos problemas en los proyectos de aprendizaje automático, pero no son solo los equipos técnicos los que construyen los canales y los modelos; Más bien, requiere que toda la empresa esté alineada. Ejemplos de cómo esto puede surgir en la práctica son cuando los datos requieren un flujo de trabajo empresarial con alguien para su aprobación, o cuando una parte interesada no técnica en la oficina principal aporta conocimientos en las primeras etapas del recorrido de los datos.
El obstáculo para construir modelos de aprendizaje automático
Enumerar a los usuarios empresariales como Cliente El procesamiento de datos para sus organizaciones es cada vez más posible utilizando inteligencia artificial. El procesamiento del lenguaje natural permite a los usuarios no técnicos consultar datos y extraer información contextualmente.
Se espera que la tasa de crecimiento esperada de la inteligencia artificial entre 2023 y 2030 sea de alrededor del 37%. El 72% de los ejecutivos ve la inteligencia artificial como el principal impulsor un trabajo Se espera que en el futuro el 20 por ciento del EBITDA se genere para empresas maduras de IA.
La calidad de los datos es la columna vertebral de la IA. Mejora el rendimiento de los algoritmos y les permite producir predicciones, recomendaciones y clasificaciones confiables. Para el 33% de las empresas que informaron proyectos de IA fallidos, el motivo se debió a la mala calidad de los datos. De hecho, las organizaciones que se esfuerzan por lograr la calidad de los datos pueden impulsar una mayor eficacia de la IA en todos los ámbitos.
Pero la calidad de los datos no es sólo un elemento que se puede comprobar. Las organizaciones que lo convierten en una parte integral de sus operaciones pueden obtener resultados comerciales tangibles al generar más modelos de aprendizaje automático anualmente para obtener resultados comerciales más confiables y predecibles al brindar confianza en el modelo.
Cómo superar las barreras de la calidad de los datos
La calidad de los datos no debería consistir en esperar a que surja un problema en producción y luego apresurarse a solucionarlo. Más bien, los datos deberían probarse continuamente, dondequiera que residan, frente a un conjunto cada vez mayor de problemas conocidos. Todas las partes interesadas deben contribuir y todos los datos deben tener un propietario claro y bien definido. Entonces, cuando se le pregunta a un científico de datos qué hace, eventualmente podría decir: construir modelos de aprendizaje automático y analizar datos.
Enumeramos los mejores servicios de almacenamiento en la nube empresarial.
Este artículo se produjo como parte del canal Expert Insights de TechRadarPro, donde destacamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no reflejan necesariamente los puntos de vista de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro