La nueva herramienta de inteligencia artificial de Google, Whisk, utiliza imágenes como indicaciones


Google aún no lo ha hecho último Herramientas de inteligencia artificial para agregar a la pila. Batidor es un creador de imágenes de Google Labs que le permite utilizar una imagen existente como mensaje. Pero su resultado sólo captura la “esencia” de la imagen inicial en lugar de recrearla con nuevos detalles. Por lo tanto, es mejor realizar una lluvia de ideas y realizar visualizaciones rápidas en lugar de editar la imagen de origen.

La empresa describe a Whisk como “un nuevo tipo de herramienta creativa”. La pantalla de entrada comienza con una interfaz sencilla que contiene entradas para estilo y tema. Esta sencilla interfaz introductoria le permite elegir entre tres estilos preestablecidos: pegatina, pin esmaltado y peluche. Sospecho que Google ha encontrado que estos tres permiten el tipo de resultado aproximado para el que la herramienta de demostración es ideal en su forma actual.

Como puede ver en la foto de arriba, he producido una imagen sólida de un peluche de Wilford Brimley. (Los términos de Google prohíben tomar fotografías de celebridades, pero Wilford se coló por las puertas llevando avena cuáquera, sin alertar a los guardias).

Whisk también incluye un editor más avanzado (que se puede encontrar haciendo clic en Empezar desde cero en la pantalla de inicio). En este modo, puede utilizar el texto o la imagen de origen en tres categorías: tema, escena y estilo. También hay una barra de entrada para agregar más texto para los toques finales. Sin embargo, en su forma actual, los controles avanzados no produjeron resultados que se parezcan a mis consultas.

See also  Las ofertas de Prime Day reducen el precio de los AirPods de tercera generación a un mínimo histórico de 129 dólares

Por ejemplo, mira mi intento de crear al difunto Sr. Brimley en una escena estilizada al estilo de un retrato de morsa disecada que encontré en línea:

La nueva herramienta de inteligencia artificial de Google, Whisk, utiliza imágenes como indicaciones

Google/Captura de pantalla de Will Shanklin para Engadget

Escupiendo lo que parece ser el misterioso actor de Wilford Brimley comiendo avena dentro de un marco de caja aerodinámico. Hasta donde puedo decir, este tipo no es un Belushi. Entonces, está claro por qué Google recomienda usar la herramienta más para una “exploración visual rápida” y menos contenido listo para producción.

Google reconoce que Whisk sólo se basará en “algunas propiedades básicas” de su imagen de origen. “Por ejemplo, el sujeto creado puede tener diferente altura, peso, peinado o tono de piel”, advierte la empresa.

Para entender por qué, no busque más que la descripción de Google sobre cómo funciona Whisk bajo el capó. se utiliza Modelo de lenguaje Géminis Para escribir un título detallado para la imagen fuente que está cargando. Luego ingresa esta descripción en un archivo. La imagen 3 es una imagen del generador.. Por lo tanto, el resultado es una imagen incorporada. Géminis habla de tu imagen – No la imagen original en sí.

Whisk sólo está disponible en EE. UU., al menos por ahora. Puedes probarlo en el proyecto. Sitio web de Google Labs.



Source Article Link

Leave a Comment