Creemos que una persona no necesita aprender a escribir instrucciones para crear imágenes. Debería ser fácil probar cosas, iterar, definir mejor y mezclar ideas visualmente. Como lo harías con un amigo. Por eso probamos algo nuevo.
Whisk es el experimento de imágenes creadas con la tecnología generativa más reciente de labs.google/fx, centrado en una función de ideación visual rápida sin necesidad de comprender a fondo cómo escribir instrucciones.
Solo sube un par de imágenes para tomarlas como base (escena, sujetos, estilos) y Whisk intentará captar su esencia para sugerir algunas imágenes sobre las que seguir ideando.
Tras bambalinas, el modelo Gemini escribe automáticamente una leyenda detallada de tus imágenes. Luego, introduce esas descripciones en el modelo de generación de imágenes más reciente de Google, Imagen 3.
Ya sea que quieras convertir un dibujo en un peluche, crear una tarjeta festiva épica o visualizar el inicio de una historia, nos entusiasma ver adónde puedes llegar con Whisk.
Prepárate
Incluye elementos visuales para que Whisk los analice y combine. Arrastra y suelta una imagen, súbela desde una carpeta. También puedes crear una referencia simple a partir de una instrucción de texto o pedirnos que te demos algunas ideas. Para ello, selecciona la opción “Obtener inspiración” o utiliza la función para tirar los dados y probar suerte.
Tras bambalinas: estos recursos pasan por la comprensión visual de Gemini para generar leyendas de imágenes. Estas descripciones de texto son las que utiliza Whisk. Haz clic en Editar para ver si lo hicimos bien y define mejor tu idea según sea necesario.
Explora
¡Es momento de mezclar las cosas! Puedes seleccionar recursos (1 o más sujetos, 1 escena, 1 estilo) y ponerlos en acción. El sistema los combinará en mezclas creativas.
¡Mira lo que Whisk crea y sigue improvisando! También puedes agregar algunos datos más para jugar con los detalles y dejar volar tu imaginación.
“Haz que los personajes coman helado”
“El dinosaurio y el gato chocan los cinco”
“Asegúrate de que el pin esmaltado sea redondo”
“Ajusta el esquema de colores para que sea pastel”.
Tras bambalinas: Gemini escribe instrucciones a partir de las leyendas y los detalles que brindes para crear la instrucción para ti. Haz clic en Editar para ver lo que Whisk le ha estado “susurrando” a Imagen 3.
Define mejor
¿Ves una imagen que te gusta, pero tal vez el sombrero debería ser azul? ¿O le falta un atardecer en el fondo? Ingresa al modo para definir mejor y pide cambios sutiles o moderados que mantengan la esencia de la imagen original.
Tras bambalinas: Gemini actualiza la instrucción según tu orientación adicional. Igual regeneramos todos los píxeles a partir de esa instrucción, pero le pedimos al modelo que se acerque lo más posible a la versión original.
Diagnostica
Seamos honestos, ¡las cosas pueden tomar rumbos inesperados! ¿Tal vez se descartaron algunos elementos? ¿Quizás el resultado no es lo que estás buscando?
En cualquier etapa anterior, puedes diagnosticar las instrucciones subyacentes haciendo clic en el botón o ícono de instrucción, editarlas, agregar esos detalles críticos manualmente y pedirle al modelo que genere más opciones. En última instancia, tú tienes el control :-)
Sujeto
¡De eso se trata la imagen! Personajes, objetos o una combinación de ambos. Un teléfono de disco antiguo. Una silla genial. Un exhibidor de cartón de películas. Un misterioso vampiro renacentista. También te puedes incluir como referencia orientativa y observar qué sucede :-)
Escena
Es el lugar donde aparecerán los sujetos. ¿En una pasarela de moda? ¿En una tarjeta festiva desplegable? Puedes agregar personajes a la escena junto a los que ya están allí. También puedes intercambiarlos. Vale la pena probarlo.
Estilo
Quizás quieras brindar más orientación sobre la estética, el material o la técnica usada para representar el sujeto en la escena. Para eso está el estilo. Puedes especificar lo más importante para ti en el cuadro de instrucciones principal para reforzar o aclarar la orientación.
Cuando agregues más detalles, puedes expresarlos en lenguaje natural (p. ej., “nuestros sujetos celebran una cena de cumpleaños”), y Whisk intentará incorporarlos.
Incluimos varias maneras para que tengas una idea de cómo funciona esto en la herramienta de forma nativa.
Playground: nuestra página de destino ofrece una experiencia simplificada de la herramienta para que puedas experimentar la magia con una sola acción. Suelta una imagen y mira cómo se transforma en un peluche (¡o en una calcomanía! ¡o en un pin esmaltado!).
Flujo “Obtener inspiración”: este botón aparecerá cuando hagas clic en “Comenzar desde cero”. Prepropagará algunos recursos, sugerirá orientación y te guiará por las áreas clave de la IU principal para generar tus primeros resultados. ¡Fácil!
Dice roll: ubicado en la parte superior del panel izquierdo, sirve para agregar rápidamente algunas sugerencias de sujeto, escena y estilo para comenzar, o seguir improvisando.
Para poder mezclar elementos de diferentes imágenes, primero necesitamos comprender cada imagen que brindas como referencia. Aquí es donde entra en juego la comprensión multimodal de Gemini. Cuando subes una imagen, Whisk utiliza Gemini para entenderla visualmente y generar descripciones de texto (o leyendas) sobre ella. En otras palabras, traduce esa imagen a texto (I2T). El objetivo de estas descripciones es captar la esencia de tus referencias, no replicar el original, y así facilitar la mezcla de ideas.
Estas leyendas luego se usan para escribir una instrucción detallada y generar una imagen basada en tu orientación a través de nuestro modelo de generación de imágenes más reciente y potente, Imagen 3. En otras palabras, traduce el texto a imagen (T2I).
El proceso anterior ayuda a Whisk a comprender y representar mejor las ideas que presentas, e iterar mientras conversa contigo.
Esto es deliberado. En nuestro experimento, Whisk extrae solo unas pocas características clave de la imagen que proporcionas para orientar el modelo. Nuestro objetivo no es crear una réplica exacta, sino capturar la esencia del sujeto.
Por lo tanto, la imagen generada puede variar en su aspecto. Por ejemplo, el sujeto generado podría tener una altura, peso o tono de piel diferentes, o un peinado distinto. Entendemos que estas características pueden ser cruciales para la identidad única de tu personaje. Para lograr un resultado que se acerque más a tu visión, te recomendamos que proporciones instrucciones más detalladas y las definas mejor.
Puedes usar el menú de la parte superior derecha para enviarnos tus comentarios.
Estamos trabajando para que nuestras herramientas estén al alcance de la mayor cantidad posible de personas. Consulta a continuación la lista de países en los que el sitio está disponible en este momento.
Angola, Antigua y Barbuda, Argentina, Australia, Bahamas, Barbados, Belice, Benín, Bolivia, Botsuana, Brasil, Brunéi, Burkina Faso, Burundi, Bután, Cabo Verde, Camboya, Camerún, Canadá, Chile, Colombia, Congo (Brazzaville), Corea del Sur, Costa de Marfil, Costa Rica, Dominica, Ecuador, El Salvador, Estados Unidos, Esuatini, Etiopía, Filipinas, Fiyi, Gabón, Gambia, Ghana, Granada, Guam, Guatemala, Guinea, Guinea Ecuatorial, Guyana, Honduras, Isla de Navidad, Isla Norfolk, Islas Cocos (Keeling), Islas Cook, Islas Heard y McDonald, Islas Marianas del Norte, Islas Salomón, Islas Vírgenes de EE.UU., Jamaica, Japón, Kenia, Kiribati, Laos, Lesoto, Liberia, Madagascar, Malasia, Malaui, Malí, Mauricio, México, Micronesia, Mozambique, Namibia, Nauru, Nepal, Nicaragua, Níger, Nigeria, Niue, Nueva Zelanda, Pakistán, Palaos, Panamá, Papúa Nueva Guinea, Paraguay, Perú, Puerto Rico, República Centroafricana, República Democrática del Congo, República Dominicana, Reino Unido, Ruanda, Samoa, Samoa Americana, San Cristóbal y Nieves, San Vicente y las Granadinas, Santa Lucía, Santo Tomé y Príncipe, Senegal, Seychelles, Sierra Leona, Singapur, Sri Lanka, Sudáfrica, Sudán del Sur, Tanzania, Tokelau, Tonga, Trinidad y Tobago, Türkiye, Tuvalu, Uganda, Uruguay, Vanuatu, Venezuela, Zambia y Zimbabue.
Whisk no está disponible en el Reino Unido
Para obtener los mejores resultados con Whisk, recomendamos usar instrucciones en inglés. Si bien algunas de nuestras características pueden admitir instrucciones en otros idiomas, la calidad del resultado generado puede variar según el idioma y la complejidad de la instrucción.