Acreditamos que você não precisa "aprender a escrever comandos" para criar imagens. Testar coisas, iterar, refinar e remixar ideias visualmente pode ser fácil, como se você estivesse conversando com um amigo. Por isso, estamos testando algo novo!
O Whisk é o mais recente experimento de imagens generativas do labs.google/fx. O foco é a ideação visual rápida, sem precisar de uma compreensão mais profunda sobre escrita de comandos.
Basta enviar algumas imagens como guia (ambiente, assuntos e estilos), e o Whisk tentará capturar sua essência e sugerir outras imagens para você continuar criando.
Nos bastidores, o modelo Gemini automaticamente vai escrever uma legenda detalhada das suas imagens. Depois, ele vai enviar essas descrições para o mais novo modelo de geração de imagem do Google, o Imagen 3.
Seja transformando um desenho em um ursinho de pelúcia, criando um cartão de Natal emocionante ou visualizando o começo de uma história, mal podemos esperar para conhecer sua trajetória com o Whisk.
O Whisk Animate é um novo recurso para assinantes do IA Premium nos países disponíveis. Com ele, você transforma imagens geradas em vídeos curtos usando o Veo 2. Os assinantes podem gerar 100 vídeos por mês. Os créditos não são cumulativos.
Preparação
Traga elementos visuais para o Whisk analisar e combinar. Arraste e solte uma imagem ou faça upload de uma pasta. Também é possível criar uma referência simples usando um comando de texto ou pedir algumas ideias selecionando "Busque inspiração" ou usando a opção de jogar os dados.
Nos bastidores: esses recursos passam pela compreensão visual do Gemini para a geração de legendas. Depois, essas descrições textuais são usadas pelo Whisk. Clique em "Editar" para ver se acertamos e depois refine como quiser.
Resultados e ajustes
Hora de misturar as coisas! Você pode selecionar recursos (um ou mais assuntos, um ambiente e um estilo) e colocar tudo isso para funcionar. O sistema vai misturar essas coisas e mostrar remixes criativos.
Dê uma olhada nas criações do Whisk e continue brincando! Também é possível adicionar algumas orientações para ajustar detalhes e continuar dando asas à sua imaginação.
"Faça os personagens tomarem sorvete"
"O dinossauro e o gato estão dando um high five"
"O pin precisa ser redondo"
"Ajuste o esquema de cores para uma paleta em tons pastel"
Nos bastidores: o Gemini escreve comandos usando suas legendas e orientações. Clique em editar e saiba o que foi transmitido para o Imagen 3.
Refinamento
Você gostou de alguma das imagens, mas quer que aquele chapéu seja azul? Ou talvez falte um pôr do sol ao fundo? Entre no modo de refinamento e solicite mudanças pequenas ou médias que continuem próximas do original.
Nos bastidores: o Gemini atualiza o comando com base na sua orientação. Vamos gerar novamente todos os pixels daquele comando, mas pedir ao modelo que mude pouca coisa.
Diagnóstico
Sabemos que as coisas podem tomar rumos inesperados. Talvez alguns elementos ficaram de fora? Será que aquela ideia não combinou com o resto?
Em qualquer uma das etapas acima, você pode diagnosticar os comandos subjacentes clicando no botão/ícone de comando e editando o texto, adicionar detalhes importantes manualmente e pedir ao modelo que gere mais opções. No fim das contas, é você que manda :-)
Assunto
É o tema da imagem. Personagens, objetos ou uma combinação dos dois. Um telefone de disco antigo. Uma cadeira legal. Um letreiro de papelão de um filme. Um vampiro renascentista misterioso. Você também pode enviar uma foto sua como referência de direção e ver o resultado :-)
Ambiente
É onde tudo vai aparecer. Uma desfile de moda? Um cartão de Natal? Você pode colocar mais personagens no cenário junto com os que já estão ali. Ou quem sabe trocar tudo? Vale a pena tentar.
Estilo
Talvez você queira direcionar um pouco mais a estética, o material ou a técnica usada na representação da imagem. É aqui que entra o estilo. Especifique o mais importante na caixa de comando principal para reforçar o direcionamento.
Você pode usar uma linguagem casual para dar mais detalhes (por exemplo, "todos estão em uma festa de aniversário"), e o Whisk tentará incorporar essas ideias ao resultado.
Para misturar elementos de diferentes imagens, primeiro precisamos entender cada imagem que você deu como referência. É aqui que entra a compreensão multimodal do Gemini. Quando você faz upload de uma imagem, o Whisk usa o Gemini para compreender visualmente essas imagens e gerar descrições de texto (ou legendas) sobre elas. Em outras palavras, acontece a conversão da imagem em texto (I2T). Essas descrições buscam capturar a essência das suas referências, e não replicar a imagem original. Assim, fica mais fácil remixar ideias.
Depois, essas legendas são usadas para escrever um comando detalhado e gerar uma imagem baseada na sua orientação, usando nosso mais recente e potente modelo de geração de imagens, o Imagen 3. Ou seja, o texto é convertido de volta em imagem (T2I).
Com o Whisk Animate, você transforma imagens geradas em vídeos curtos usando o Veo 2 ao guiar os movimentos das imagens geradas pelo Whisk.
Esse processo ajuda o Whisk a entender e representar melhor as ideias que você está criando e a iterar enquanto conversa com você.
O resultado só vai ser parecido com seus uploads, e não uma cópia exata. No nosso experimento, o Whisk extrai apenas algumas características principais da imagem enviada para guiar o modelo. O objetivo não é criar uma réplica exata, mas capturar a essência do assunto.
Por isso, a imagem gerada pode ser diferente da original. Por exemplo, o objeto gerado talvez tenha outro peso, altura, corte de cabelo ou tom de pele. Sabemos que essas características podem ser cruciais para a identidade do seu personagem. Para ter um resultado mais próximo da sua visão, insira comandos mais detalhados e refine suas instruções.
Você pode usar o menu na parte superior direita para nos enviar feedback.
Estamos trabalhando para levar nossas ferramentas ao maior número possível de pessoas. O Whisk pode ser usado por usuários com mais de 18 anos em todos os países onde o labs.google/fxestá disponível, exceto no Reino Unido.
O Whisk Animate agora está disponível para assinantes do IA Premium com 100 gerações de vídeo por mês nos seguintes países: África do Sul, Angola, Antígua e Barbuda, Argentina, Austrália, Bahamas, Belize, Benin, Bolívia, Botsuana, Brasil, Burkina Fasso, Cabo Verde, Camarões, Camboja, Canadá, Chile, Colômbia, Coreia do Sul, Costa do Marfim, Costa Rica, El Salvador, Equador, Estados Unidos, Fiji, Filipinas, Gabão, Gana, Guam, Guatemala, Honduras, Ilhas Marianas do Norte, Ilhas Virgens Americanas, Jamaica, Japão, Laos, Malásia, Mali, Maurício, México, Moçambique, Namíbia, Nepal, Nicarágua, Níger, Nigéria, Nova Zelândia, Palau, Panamá, Papua-Nova Guiné, Paquistão, Paraguai, Peru, Porto Rico, Quênia, República Dominicana, Ruanda, Samoa Americana, Senegal, Seicheles, Serra Leoa, Singapura, Sri Lanka, Tanzânia, Tonga, Trinidad e Tobago, Turquia, Uganda, Uruguai, Venezuela, Zâmbia e Zimbábue. Assim, você solta a criatividade e guia os movimentos das imagens no Whisk.
The share link will display: