Acreditamos que você não precisa "aprender a escrever comandos" para criar imagens. Testar coisas, iterar, refinar e remixar ideias visualmente pode ser fácil, como se você estivesse conversando com um amigo. Por isso, estamos testando algo novo!
O Whisk é o mais recente experimento de imagens generativas do labs.google/fx. O foco é a ideação visual rápida, sem precisar de uma compreensão mais profunda sobre escrita de comandos.
Basta enviar algumas imagens como guia (ambiente, assuntos e estilos), e o Whisk tentará capturar sua essência e sugerir outras imagens para você continuar criando.
Nos bastidores, o modelo Gemini automaticamente vai escrever uma legenda detalhada das suas imagens. Depois, ele vai enviar essas descrições para o mais novo modelo de geração de imagem do Google, o Imagen 3.
Seja transformando um desenho em um ursinho de pelúcia, criando um cartão de Natal emocionante ou visualizando o começo de uma história, mal podemos esperar para conhecer sua trajetória com o Whisk.
Preparação
Traga elementos visuais para o Whisk analisar e combinar. Arraste e solte uma imagem ou faça upload de uma pasta. Também é possível criar uma referência simples usando um comando de texto ou pedir algumas ideias selecionando "Busque inspiração" ou usando a opção de jogar os dados.
Nos bastidores: esses recursos passam pela compreensão visual do Gemini para a geração de legendas. Depois, essas descrições textuais são usadas pelo Whisk. Clique em "Editar" para ver se acertamos e depois refine como quiser.
Resultados e ajustes
Hora de misturar as coisas! Você pode selecionar recursos (um ou mais assuntos, um ambiente e um estilo) e colocar tudo isso para funcionar. O sistema vai misturar essas coisas e mostrar remixes criativos.
Dê uma olhada nas criações do Whisk e continue brincando! Também é possível adicionar algumas orientações para ajustar detalhes e continuar dando asas à sua imaginação.
"Faça os personagens tomarem sorvete"
"O dinossauro e o gato estão dando um high five"
"O pin precisa ser redondo"
"Ajuste o esquema de cores para uma paleta em tons pastel"
Nos bastidores: o Gemini escreve comandos usando suas legendas e orientações. Clique em editar e saiba o que foi transmitido para o Imagen 3.
Refinamento
Você gostou de alguma das imagens, mas quer que aquele chapéu seja azul? Ou talvez falte um pôr do sol ao fundo? Entre no modo de refinamento e solicite mudanças pequenas ou médias que continuem próximas do original.
Nos bastidores: o Gemini atualiza o comando com base na sua orientação. Vamos gerar novamente todos os pixels daquele comando, mas pedir ao modelo que mude pouca coisa.
Diagnóstico
Sabemos que as coisas podem tomar rumos inesperados. Talvez alguns elementos ficaram de fora? Será que aquela ideia não combinou com o resto?
Em qualquer uma das etapas acima, você pode diagnosticar os comandos subjacentes clicando no botão/ícone de comando e editando o texto, adicionar detalhes importantes manualmente e pedir ao modelo que gere mais opções. No fim das contas, é você que manda :-)
Assunto
É o tema da imagem. Personagens, objetos ou uma combinação dos dois. Um telefone de disco antigo. Uma cadeira legal. Um letreiro de papelão de um filme. Um vampiro renascentista misterioso. Você também pode enviar uma foto sua como referência de direção e ver o resultado :-)
Ambiente
É onde tudo vai aparecer. Uma desfile de moda? Um cartão de Natal? Você pode colocar mais personagens no cenário junto com os que já estão ali. Ou quem sabe trocar tudo? Vale a pena tentar.
Estilo
Talvez você queira direcionar um pouco mais a estética, o material ou a técnica usada na representação da imagem. É aqui que entra o estilo. Especifique o mais importante na caixa de comando principal para reforçar o direcionamento.
Você pode usar uma linguagem casual para dar mais detalhes (por exemplo, "todos estão em uma festa de aniversário"), e o Whisk tentará incorporar essas ideias ao resultado.
Incluímos várias maneiras de você entender como isso funciona nativamente na ferramenta.
Playground: nossa página de destino é uma experiência simplificada da ferramenta para que você sinta a magia com apenas uma ação. Solte uma imagem, e ela se transforma em um ursinho de pelúcia! Ou um adesivo! Ou um pin!
Fluxo "Busque inspiração": esse botão aparece quando você clica em "Começar do zero". Ele pré-preenche alguns recursos, sugere orientações e guia você pelas principais áreas da interface para gerar seus primeiros resultados. É fácil!
Botão de jogar os dados: localizado na parte de cima do painel à esquerda, esse botão adiciona rapidamente algumas sugestões de assunto, ambiente e estilo para você continuar criando ou improvisando.
Para misturar elementos de diferentes imagens, primeiro precisamos entender cada imagem que você deu como referência. É aqui que entra a compreensão multimodal do Gemini. Quando você faz upload de uma imagem, o Whisk usa o Gemini para compreender visualmente essas imagens e gerar descrições de texto (ou legendas) sobre elas. Em outras palavras, acontece a conversão da imagem em texto. Essas descrições buscam capturar a essência das suas referências, e não replicar a imagem original. Assim, fica mais fácil remixar ideias.
Depois, essas legendas são usadas para escrever um comando detalhado e gerar uma imagem baseada na sua orientação, usando o nosso mais recente e potente modelo de geração de imagens, o Imagen 3. Ou seja, o texto é convertido de volta em imagem.
Esse processo ajuda o Whisk a entender e representar melhor as ideias que você está concebendo e a iterar enquanto conversa com você.
Isso é proposital. No nosso experimento, o Whisk extrai apenas algumas características principais da imagem enviada para guiar o modelo. O objetivo não é criar uma réplica exata, mas capturar a essência do que foi enviado.
Por isso, a imagem gerada pode ser diferente da original. Por exemplo, o resultado gerado talvez tenha outro peso, altura, corte de cabelo ou tom de pele. Sabemos que essas características podem ser cruciais para a identidade do seu personagem. Para ter um resultado mais próximo da sua visão, insira comandos mais detalhados e refine suas instruções.
Você pode usar o menu na parte superior direita para nos enviar feedback.
Estamos trabalhando para levar nossas ferramentas ao maior número possível de pessoas. Veja abaixo uma lista de países em que o site está disponível no momento.
África do Sul, Angola, Antígua e Barbuda, Argentina, Austrália, Bahamas, Barbados, Belize, Benim, Bolívia, Botsuana, Brasil, Brunei, Burkina Faso, Burundi, Butão, Cabo Verde, Camarões, Camboja, Canadá, Chile, Colômbia, Coreia do Sul, Costa do Marfim, Costa Rica, Dominica, El Salvador, Equador, Essuatíni, Estados Unidos, Etiópia, Fiji, Filipinas, Gabão, Gâmbia, Gana, Granada, Guam, Guatemala, Guiana, Guiné, Guiné Equatorial, Honduras, Ilha Christmas, Ilha Norfolk, Ilhas Cocos (Keeling), Ilhas Cook, Ilhas Heard e McDonald, Ilhas Marianas do Norte, Ilhas Maurício, Ilhas Salomão, Ilhas Virgens Americanas, Jamaica, Japão, Laos, Lesoto, Libéria, Madagascar, Malásia, Malauí, Mali, México, Micronésia, Moçambique, Namíbia, Nauru, Nepal, Nicarágua, Níger, Nigéria, Niue, Nova Zelândia, Palau, Panamá, Papua Nova Guiné, Paquistão, Paraguai, Peru, Porto Rico, Quênia, Quiribati, República Centro-Africana, República Democrática do Congo, República do Congo, República Dominicana, Ruanda, Samoa, Samoa Americana, Santa Lúcia, São Cristóvão e Nevis, São Tomé e Príncipe, São Vicente e Granadinas, Senegal, Serra Leoa, Seychelles, Singapura, Sri Lanka, Sudão do Sul, Tanzânia, Tokelau, Tonga, Turquia, Tuvalu, Uganda, Uruguai, Vanuatu, Venezuela, Zâmbia e Zimbábue.
O Whisk não está disponível no Reino Unido.