Construcción del mundo real Herramientas de inteligencia artificial Requiere que te ensucies las manos con datos. ¿el reto? Las estructuras de datos tradicionales a menudo actúan como archivadores rebeldes; simplemente no se adaptan al volumen de datos no estructurados que generamos.
Desde motores de recomendación y servicio al cliente generados por IA hasta entregas con drones y optimización de la cadena de suministro, los minoristas de Fortune 500 como Walmart utilizan docenas de modelos de IA y aprendizaje automático, cada uno de los cuales lee y produce combinaciones únicas de conjuntos de datos. Esta diversidad requiere componentes especializados para acomodar, almacenar, procesar y transformar datos.
Independientemente de los datos o la infraestructura, las características de mala calidad afectan directamente el rendimiento de su modelo. Una característica o cualquier entrada de datos medibles, ya sea el tamaño de un objeto o un clip de audio, debe ser de alta calidad. La parte de ingeniería (el proceso de identificar esta retroalimentación bruta y convertirla en características deseables para que puedan usarse en el aprendizaje supervisado) se vuelve crítica para diseñar y entrenar nuevos enfoques de aprendizaje automático para que puedan abordar nuevas tareas.
Este proceso implica iteración constante, distintos lanzamientos, arquitectura flexible, sólido conocimiento del dominio e interpretabilidad. Exploremos estos elementos con más detalle.
Responsable de la práctica de Global Insights and Analytics en Nysom.
Una estructura de datos adecuada simplifica operaciones complejas
Garantiza una estructura de datos bien diseñada Datos Fácilmente disponible y accesible para ingeniería de funciones. Los componentes principales incluyen:
1. Soluciones de almacenamiento de datosEquilibrio de almacenes de datos y lagos.
2. Canalizaciones de datos:Utilice herramientas como AWS Glue o Azure Data Factory.
3. control de accesoGarantizar la seguridad de los datos y su correcto uso.
La automatización puede aliviar significativamente la carga de la ingeniería de funciones. Tecnologías como la partición de datos o el almacenamiento en columnas facilitan el procesamiento paralelo de grandes conjuntos de datos. Al dividir los datos en partes más pequeñas según criterios específicos, como la región de un cliente (por ejemplo, América del Norte, Europa, Asia), cuando es necesario ejecutar una consulta, solo se accede a las secciones o columnas relevantes y se procesan en paralelo en múltiples máquinas.
La validación de datos automatizada, la serialización de funciones y la gestión de esquemas dentro de la infraestructura mejoran la comprensión y promueven la reutilización en todos los modelos y experimentos, lo que mejora aún más la eficiencia. Esto requiere establecer expectativas específicas para sus datos, como formato, rangos de valores, límites de datos faltantes y otras restricciones. Herramientas como Apache Airflow lo ayudan a incluir validaciones, mientras que Lineage IQ admite el seguimiento de origen, conversión y destino de las funciones. La clave es almacenar y administrar las definiciones de esquemas en constante evolución de sus datos y características en un repositorio central.
Una arquitectura de datos sólida prioriza los pasos de limpieza, validación y transformación para garantizar la precisión y coherencia de los datos, lo que ayuda a simplificar la ingeniería de funciones. Los almacenes de características, un tipo de depósito central de características, son una herramienta valiosa dentro de la arquitectura de datos que lo respalda. Cuanto más compleja sea la arquitectura y la tienda de características, más importante será tener una propiedad clara y Permiso de control de accesoagilizando el flujo de trabajo y mejorando la seguridad.
El papel de las tiendas de características
Muchas bibliotecas de aprendizaje automático proporcionan funciones prediseñadas para tareas de ingeniería de características comunes, como codificación en caliente y creación rápida de prototipos. Aunque estas funciones pueden ahorrarle tiempo y garantizar que las funciones estén diseñadas correctamente, es posible que no sean suficientes para proporcionar las transformaciones dinámicas y las tecnologías que cumplan con sus requisitos. Es probable que lo que necesite para gestionar la complejidad y la coherencia sea un almacén de funciones central.
Tener una tienda de funciones facilita el intercambio y evita duplicar esfuerzos. Sin embargo, su instalación y mantenimiento requieren esfuerzos adicionales. esa infraestructura Y experiencia. En lugar de depender del entorno de codificación existente de un proveedor de biblioteca prediseñado para definir metadatos de funciones y aportar nuevas funciones, con un repositorio de funciones implementado, los científicos de datos internos tienen la autonomía para implementar estas funciones en tiempo real.
Hay muchos elementos a considerar al encontrar una tienda de funciones que pueda cumplir con sus tareas específicas y integrarse bien con sus herramientas existentes. Sin mencionar el rendimiento, la escalabilidad y los términos de licencia de la tienda: lo que está buscando Fuente abierta ¿O algo comercial?
A continuación, asegúrese de que su tienda de funciones sea apropiada para sus necesidades de ingeniería de funciones complejas o específicas de un dominio, y verifique lo que dice en la lata. Por ejemplo, al elegir cualquier producto, es importante consultar las reseñas y el historial de lanzamientos. ¿La tienda mantiene compatibilidad con versiones anteriores? ¿Existe documentación oficial, canales de soporte o una comunidad de usuarios activa para recursos de solución de problemas, tutoriales y ejemplos de código? ¿Qué tan fácil es aprender la sintaxis y la API de la tienda? Estos son los tipos de factores que debe considerar al elegir el taller adecuado para sus tareas de ingeniería de funciones.
Equilibrando la capacidad de interpretar y realizar
A menudo resulta difícil equilibrar la interpretabilidad y el rendimiento. Las características explicables son fáciles de entender para los humanos y están directamente relacionadas con el problema que se resuelve. Por ejemplo, una característica denominada “F12”, como “Edad_del_cliente_en_años”, será más representativa e interpretable. Sin embargo, los modelos complejos pueden sacrificar cierta interpretabilidad para mejorar la precisión.
Por ejemplo, un formulario de detección de fraude. Tarjeta de crédito Los parámetros pueden utilizar una máquina de aumento de gradiente para identificar patrones sutiles en diferentes funciones. Aunque son más precisas, la complejidad dificulta la comprensión de la lógica de cada predicción. Los análisis de importancia de las funciones y las herramientas de IA explicables pueden ayudar a mantener la interpretabilidad en estos escenarios.
La ingeniería de funciones es una de las tareas de preprocesamiento de datos más complejas que realizan los desarrolladores. Sin embargo, como un chef en una cocina bien pensada, automatizar la estructuración de datos en una estructura bien diseñada mejora enormemente la eficiencia. Equipe a su equipo con las herramientas y la experiencia para evaluar sus procesos actuales, identificar brechas y tomar medidas prácticas para integrar la validación automatizada de datos, la secuenciación de funciones y la gestión de esquemas.
Para mantenerse a la vanguardia en el competitivo panorama de la IA, especialmente para las grandes empresas, es esencial invertir en una arquitectura de datos sólida y un almacén de funciones central. Garantiza la coherencia, reduce las duplicaciones y permite el escalado. Al combinar catálogos de funciones interpretables, flujos de trabajo claros y controles de acceso seguros, la ingeniería de funciones puede convertirse en una tarea menos desalentadora y más manejable.
Únase a nosotros para transformar su proceso de ingeniería de funciones, garantizando que sus modelos se construyan sobre una base de funciones de alta calidad, explicables y escalables. Contáctenos hoy para descubrir cómo podemos ayudarlo a liberar todo el potencial de sus datos e impulsar el éxito de la IA.
Enumeramos los mejores servicios de almacenamiento en la nube empresarial.
Este artículo se produjo como parte del canal Expert Insights de TechRadarPro, donde destacamos las mejores y más brillantes mentes de la industria tecnológica actual. Las opiniones expresadas aquí son las del autor y no reflejan necesariamente los puntos de vista de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro