我们认为,不应该让用户为了生成图片而“学习如何给出提示”。工具应该简单易用,让用户能够直观轻松地尝试、不断调整、优化和重新组合创意,就像在与朋友分享自己的奇思妙想一样。因此,我们正在尝试一些新的东西!
Whisk 是 labs.google/fx 最新的生成式图像实验,专注于帮助用户快速进行视觉构思,而无需深入理解如何给出提示!
只需上传几张图片作为简单指引(场景、主体、风格),Whisk 就会尝试捕捉它们的精髓,并生成一些图片供您继续构思。
Gemini 模型会在后台自动为图片编写详细的图片说明,然后将这些说明输入到 Google 最新的图片生成模型 Imagen 3 中。
无论是将一幅画变成毛绒玩具、制作一张精美的节日贺卡,还是以图像形式描绘故事开头…我们都很期待看到您运用 Whisk 创作的内容。
准备工作
提供图像元素供 Whisk 分析和组合。您可以拖放图片或从文件夹中上传图片,还可以使用文本提示创建简单的参考…或者选择“给我灵感”或使用“掷骰子”功能,让我们为您提供一些创意灵感。
幕后揭秘:Gemini 的视觉理解功能会根据这些素材资源编写图片说明。Whisk 会使用这些说明生成图片。点击“修改”,即可查看生成结果是否符合预期,并根据需要进行调整!
探索
合成时间到!您可以选择素材资源(1 个或多个主体、1 个场景、1 种风格),然后把它们交给 Whisk 处理。系统会把这些素材资源融合成富有创意的混搭作品。
看看 Whisk 生成的结果,然后根据需求进行调整!您也可以提供一些简单的指引,对细节进行打磨,让您的想象力自由驰骋。
“让角色吃冰淇淋”
“恐龙和猫咪在击掌!”
“确保珐琅胸针是圆形的。”
“将配色方案调整为柔和色调”
幕后揭秘:Gemini 会根据图片说明和您的指引,为您生成提示。点击“修改”即可查看向 Imagen 3 提供的提示。
优化
生成的图片符合您的预期,但或许您想把帽子换成蓝色的,或是想在背景中添加日落。您可以进入“优化”模式,要求系统进行轻微到中度的改动,同时尽量贴近原图。
幕后揭秘:Gemini 会根据您的指引更新提示!我们仍会根据提示重新生成所有像素,但会要求模型尽量生成与原图相似的图片。
诊断
说实话,结果可能会出人意料!或许某些元素被遗漏了?或许无法生成您想要的图片?
在上述任何阶段,您都可以通过点击提示按钮/图标来诊断底层提示,并对其进行修改,手动添加关键细节,然后要求模型生成更多图片供您选择。最终,一切由您掌控 :-)
主体
主体是图片中的重点内容。它可以是角色、物体,或二者兼具。例如,可以是一部老式拨号盘电话、一把酷炫的椅子、一个纸质电影立牌、一个神秘的文艺复兴吸血鬼!您也可以提供自己的照片作为参考依据,看看会生成怎样的图片 :-)
场景
场景是主体出现的地方。它可以是时装秀 T 台,也可以是立体弹出式节日贺卡。您可以将新角色带入场景中,放在现有角色旁边,或者将现有角色替换掉,试试看效果如何。
风格
如果您想就主体和场景采用的美学形式、材质或表现技巧提供更多指引,请选择“风格”。例如,可在主提示框中指定您最关心的内容,让指引更加明确。
您可以使用自然语言添加更多细节(例如,“主体正在享用生日晚餐”),Whisk 会尝试将这些细节融入图片中。
您可通过以下几种方法了解此工具的运作方式。
游乐场:我们的着陆页上提供该工具的简化版体验,您只需一个动作就能感受其神奇之处。拖进一张图片,系统就能变出毛绒玩具(也可能是贴纸或珐琅胸针)!
给我灵感:点击“从头开始”即可看到“给我灵感”按钮。系统会预先填充几项素材资源,并提供指引建议,带您熟悉主界面的重要区域,然后生成首张图片。就是这么简单!
掷骰子:掷骰子按钮位于左侧面板的顶部,可快速提供一些关于主体、场景和风格的建议,帮助您开始生成图片或继续优化!
为了将不同图片中的元素重新组合在一起,我们首先需要了解您上传的每张图片。这时候 Gemini 的多模态理解功能就派上用场了!您上传图片后,Whisk 会使用 Gemini 对图片进行视觉理解,并生成关于图片的文本描述或图片说明。换句话说,将图片转换成文本 (I2T)。这些描述旨在捕捉所参考图片的精髓,而非复制原始内容,以便于重新合成创意。
然后,系统会使用这些图片说明编写一个详细的提示,以便使用我们最新且功能最强大的图片生成模型 Imagen 3,根据您的指引生成一张图片。换句话说,将文本再转换回图片 (T2I)。
此过程有助于 Whisk 更好地理解和呈现您正在形成的创意,并在与您对话的过程中对生成的结果不断进行调整。
这是刻意设计的结果。在我们的实验中,Whisk 仅从您提供的图片中提取少数几个关键特征来为模型提供指引。我们的目标不是创作与原图完全相同的复制品,而是把握主体的精髓。
因此,生成的图片在外观上可能与原图不同。例如,生成的主体可能身高体重不一样,或者具有不同的发型或肤色。我们知道,这些特征对角色的独特性来说可能很关键。因此,为了得到更接近您设想的结果,建议您提供更详细的提示,并优化指令。
您可以使用右上角的菜单向我们发送反馈。
我们正在努力尽可能将我们的工具推向更多用户。以下是该网站目前支持的国家/地区。
美属萨摩亚、安哥拉、安提瓜和巴布达、阿根廷、澳大利亚、巴哈马、巴巴多斯、伯利兹、贝宁、不丹、玻利维亚、博茨瓦纳、巴西、文莱、布基纳法索、布隆迪、佛得角、柬埔寨、喀麦隆、加拿大、中非共和国、智利、圣诞岛、科科斯(基林)群岛、哥伦比亚、刚果(布)共和国、刚果(金)民主共和国、库克群岛、哥斯达黎加、科特迪瓦、多米尼加、多米尼加共和国、厄瓜多尔、萨尔瓦多、赤道几内亚、斯威士兰、埃塞俄比亚、斐济、加蓬、加纳、格林纳达、关岛、危地马拉、几内亚、圭亚那、赫德岛和麦克唐纳群岛、洪都拉斯、牙买加、日本、肯尼亚、基里巴斯、老挝、莱索托、利比里亚、马达加斯加、马拉维、马来西亚、马里、毛里求斯、墨西哥、密克罗尼西亚、莫桑比克、纳米比亚、瑙鲁、尼泊尔、新西兰、尼加拉瓜、尼日尔、尼日利亚、纽埃、诺福克岛、北马里亚纳群岛、巴基斯坦、帕劳、巴拿马、巴布亚新几内亚、巴拉圭、秘鲁、菲律宾、波多黎各、卢旺达、圣基茨和尼维斯、圣卢西亚、圣文森特和格林纳丁斯、萨摩亚、圣多美和普林西比、塞内加尔、塞舌尔、塞拉利昂、新加坡、所罗门群岛、南非、韩国、南苏丹、斯里兰卡、坦桑尼亚、冈比亚、托克劳、汤加、特立尼达和多巴哥、土耳其、图瓦卢、美国、美属维尔京群岛、乌干达、乌拉圭、瓦努阿图、委内瑞拉、赞比亚和津巴布韦。
Whisk 未在英国推出
为了在使用 Whisk 时获得最佳结果,建议您使用英语撰写提示。虽然我们的某些功能可能支持以其他语言撰写的提示,但所生成的内容质量可能会因提示的语言和复杂程度而异。