NVIDIA Los investigadores presentaron el lunes un nuevo modelo de inteligencia artificial (IA) que puede mover objetos en una imagen. La herramienta, llamada DiffUHaul, puede comprender espacialmente el contexto de una imagen para mover un objeto de un lugar a otro sin afectar el fondo o la forma de la imagen. El aspecto único de esta técnica es que no requiere entrenamiento, lo que significa que no se utilizan datos previos al entrenamiento para construir esta herramienta. La compañía presentó la nueva tecnología en la conferencia Asia 2024 del Grupo de Interés Especial en Gráficos por Computadora y Tecnologías Interactivas (SIGGRAPH).
en busqueda papelLos investigadores de Nvidia han detallado la nueva herramienta de inteligencia artificial. Esta tecnología fue desarrollada en cooperación con la Universidad Hebrea de Jerusalén, la Universidad de Tel Aviv y la Universidad Reichmann. Con la nueva herramienta, los investigadores pretenden resolver un problema importante relacionado con los modelos de generación de imágenes de IA: el problema de mover objetos en una imagen con conciencia espacial.
El artículo destaca que esta tarea de edición sigue siendo un cuello de botella para los científicos de IA debido a la falta de razonamiento espacial de los modelos de IA. Los modelos visuales actuales pueden comprender el contexto de una imagen, pero no pueden mover objetos porque no comprenden cómo se puede percibir espacialmente el movimiento en un entorno 2D.
Con DiffUHaul, Nvidia afirma que este problema se puede solucionar. Según la estructura de difusión de la imagen, la herramienta utiliza enmascaramiento de atención en el paso de eliminación de ruido. Esto se hace para mantener la apariencia de alto nivel del objeto. La herramienta de IA utiliza BlobGEN, una nueva tecnología que integra la comprensión espacial en la herramienta de IA. Además, se han utilizado nuevas técnicas para reconstruir imágenes reales con el modelo in situ.
En la interfaz, los usuarios podrán escribir un mensaje de texto para resaltar el objeto que desean cambiar y la IA puede realinear espacialmente el objeto mientras ajusta el fondo en consecuencia. En las demostraciones de la compañía, no fue posible determinar si la herramienta de edición de IA podía comprender los cambios de forma que se producen con el movimiento espacial. Por ejemplo, si un globo en el aire se mueve hacia el suelo, su forma también cambia. Sin embargo, es posible que la IA no pueda capturar esto debido a la falta de capacitación.