이미지를 생성하기 위해 '프롬프트를 작성하는 방법을 배울' 필요는 없습니다. 손쉽게 아이디어를 시도해 보거나 반복하고, 조정하며 시각적으로 리믹스할 수 있어야 합니다. 친구들과 함께하는 것과 마찬가지로 말이죠. 그래서 새로운 것을 시도해 보려고 합니다.
Whisk는 labs.google/fx의 최신 생성형 이미지 실험으로, 프롬프트를 깊이 이해할 필요 없이 빠르게 시각적인 아이디어를 구상하는 데 집중합니다.
간단하게 가이드로 장면, 대상, 스타일과 같은 몇 가지 이미지를 주기만 하면 Whisk가 핵심을 파악해 계속 개념화할 수 있도록 몇 가지 이미지를 제시합니다.
뒤에서는 Gemini 모델이 이미지의 세부정보를 자동으로 작성해 줍니다. 그런 다음 이러한 설명을 Google의 최신 이미지 생성 모델인 Imagen 3에 제공합니다.
그림을 인형으로 바꾸거나, 근사한 연하장을 만들거나, 이야기의 첫 부분을 시각화하는 등… 여러분의 Whisk 활용법이 무척 기대됩니다.
준비
Whisk가 분석하고 결합할 시각적 요소를 불러옵니다. 이미지를 드래그 앤 드롭하고 폴더에서 업로드합니다. 텍스트 프롬프트로부터 간단한 참조를 생성하거나… '아이디어 얻기' 또는 '주사위 굴리기' 기능을 사용하여 몇 가지 아이디어의 씨앗을 심을 수도 있습니다.
비하인드 스토리: 이러한 확장 소재는 설명 생성을 위해 Gemini의 시각적 이해를 거칩니다. Whisk에서는 이러한 텍스트 설명을 활용합니다. 수정을 클릭하여 설명이 올바른지 확인하고 필요에 따라 상세하게 조정하세요.
탐색
여러 가지를 섞어 볼 차례입니다. 확장 소재(하나 이상의 대상, 하나의 장면, 하나의 스타일)를 선택한 다음 섞어 보세요. 시스템은 이 모든 것을 한데 모아 창의적으로 리믹스해 줍니다.
Whisk가 무엇을 내놓는지 보고 계속 반복해 보세요. 간단한 가이드를 제공하여 세부적인 내용을 다듬고 상상력을 계속 발휘할 수도 있습니다.
'아이스크림을 먹는 캐릭터를 만들어 줘'
'공룡과 고양이가 하이파이브를 하고 있어'
'에나멜 핀은 동그란 모양이어야 해'
'색 구성표를 조정해서 파스텔 팔레트로 만들어 줘'
비하인드 스토리: Gemini는 설명과 사용자의 가이드를 활용해 사용자를 위한 프롬프트를 작성해 줍니다. 수정을 클릭하여 Imagen 3에 입력된 내용을 확인해 보세요.
미세 조정
이미지가 마음에 들지만 모자는 파란색으로 바꾸고 싶으신가요? 아니면 배경에서 일몰이 빠졌나요? 미세 조정 모드에서 원본에 가까운 방향성은 유지하면서 사소하거나 중간 정도의 변경을 요청해 보세요.
비하인드 스토리: Gemini가 가이드에 따라 프롬프트를 업데이트해 줍니다. 해당 프롬프트로부터 모든 픽셀을 재생성하지만 모델에 여전히 유사성을 유지해 달라고 요청하세요.
분석
솔직히 말해 결과물이 엉망진창이 될 수도 있습니다. 몇 가지 요소가 빠지거나 원하는 내용이 정확하게 일치하지 않을 수도 있습니다.
위의 어느 단계에서든 프롬프트 버튼/아이콘을 클릭하면 기본 프롬프트를 진단하고 수정하여 중요한 세부사항을 추가하고 모델에 더 많은 옵션을 생성해 달라고 요청할 수 있습니다. 결국 통제권은 사용자에게 있습니다.
대상
이미지에서 다루는 내용입니다. 캐릭터나 사물 또는 이런 것의 조합이죠. 오래된 다이얼식 전화기, 근사한 의자, 영화 디스플레이 패널, 신비로운 르네상스풍 뱀파이어 등을 예시로 들 수 있습니다. 방향성에 관한 참고자료를 주고 어떤 결과가 나오는지 살펴볼 수도 있습니다.
장면
대상이 나타나는 상황을 말합니다. 패션쇼 런웨이나 팝업 연하장 등을 예시로 들 수 있습니다. 장면에 이미 존재하는 캐릭터 옆에 다른 캐릭터를 불러오거나 캐릭터를 아예 바꿀 수도 있죠. 여러 방법으로 시도해 보세요.
스타일
위의 내용을 나타내는 외적인 부분, 소재 또는 기법에 관해 보다 자세하게 안내하고 싶을 수도 있습니다. 이럴 때 스타일을 사용해 보세요. 기본 프롬프트 상자에 가장 중요하게 생각하는 사항을 지정하면 더 자세한 가이드를 제공할 수 있습니다.
세부사항을 더할 때 자연어를 사용하면(예: '대상이 생일 저녁 식사를 하려고 해') Whisk가 열심히 내용을 파악할 것입니다.
Whisk가 도구에서 자연스럽게 작동하는 방식을 사용자가 파악할 수 있도록 다양한 방법을 마련했습니다.
플레이그라운드: Whisk 방문 페이지에서는 한 번의 동작으로 도구를 마법처럼 경험할 수 있습니다. 이미지를 업로드한 다음 이것이 인형으로 바뀌는 모습을 확인해 보세요. (스티커나 에나멜 핀으로 변신하기도 합니다.)
아이디어 얻기 플로우: 이 버튼은 '처음부터 새로 시작'을 클릭하면 표시됩니다. 여기에는 몇 가지 확장 소재가 자동 입력되어 있습니다. 첫 출력을 생성할 수 있도록 가이드를 제시하고 기본 UI의 주요 영역을 안내해 줍니다. 간단하죠.
주사위 굴리기: 왼쪽 패널 상단에 위치하며, 여기에서는 몇 가지 대상, 장면, 스타일 제안을 빠르게 추가하여 진행하거나… 반복할 수 있습니다.
다양한 이미지의 요소를 한데 리믹스하려면 먼저 참조하는 각 이미지에 관한 이해도를 높여야 합니다. 바로 여기서 Gemini의 멀티모달 이해도가 등장합니다. 이미지를 업로드하면 Whisk가 Gemini를 사용하여 이러한 이미지를 시각적으로 이해하고 그에 관한 텍스트 설명 또는 자막을 생성합니다. 이미지 텍스트 변환(I2T)이라 할 수 있습니다. 이러한 설명의 목적은 원본을 복제하는 것이 아니라 참조의 핵심을 파악하여 아이디어 리믹스를 촉진하는 데 있습니다.
이후에 자막은 사용자의 안내를 바탕으로 가장 강력한 최신 이미지 생성 모델인 Imagen 3를 사용하여 이미지를 생성하기 위한 상세 프롬프트를 작성하는 데 사용됩니다. 다시 말해 이미지를 다시 텍스트로 변환(T2I)하는 것입니다.
위 프로세스를 통해 Whisk는 사용자가 형성하려는 아이디어를 더 정확하게 이해하고 표현하며, 사용자와 대화를 나누면서 반복할 수 있게 됩니다.
이는 의도된 것입니다. 실험에서 Whisk는 모델 가이드를 위해 제공된 이미지에서 몇 가지 주요 특징만 추출합니다. Google의 목표는 정확한 복제본을 만드는 것이 아니라 대상의 핵심을 파악하는 것입니다.
그러므로 생성된 이미지가 겉보기에 다를 수 있습니다. 예를 들어 생성된 대상은 키와 체중이 다르거나 헤어스타일 또는 피부색이 다를 수 있습니다. 이러한 특징이 대상의 고유한 정체성을 결정하는 데 있어 중요한 부분일 수 있다는 점을 잘 알고 있습니다. 실제로 봤을 때 더 비슷한 결과를 얻으려면 더 자세한 프롬프트를 제공하고 요청사항을 상세하게 조정하는 것이 좋습니다.
오른쪽 상단에 있는 메뉴를 사용해 의견을 보낼 수도 있습니다.
Google은 가능한 한 많은 사용자에게 Google의 도구를 제공하기 위해 노력하고 있습니다. 현재 사이트를 이용할 수 있는 국가의 목록은 아래를 참고하세요.
대한민국, 가나, 가봉, 가이아나, 감비아, 과테말라, 괌, 그레나다, 기니, 나미비아, 나우루, 나이지리아, 남수단, 남아프리카공화국, 네팔, 노퍽섬, 뉴질랜드, 니우에, 니제르, 니카라과, 도미니카, 도미니카 공화국, 라오스, 라이베리아, 레소토, 르완다, 마다가스카르, 말라위, 말레이시아, 말리, 멕시코, 모리셔스, 모잠비크, 미국, 미국령 버진아일랜드, 미크로네시아 연방주, 바누아투, 바베이도스, 바하마, 베냉, 베네수엘라, 벨리즈, 보츠와나, 볼리비아, 부룬디, 부르키나파소, 부탄, 북마리아나 제도, 브라질, 브루나이, 사모아, 상투메 프린시페, 세네갈, 세이셸, 세인트루시아, 세인트빈센트 그레나딘, 세인트키츠 네비스, 솔로몬 제도, 스리랑카, 시에라리온, 싱가포르, 아르헨티나, 아메리칸사모아, 앤티가 바부다, 앙골라, 에스와티니, 에콰도르, 에티오피아, 엘살바도르, 오스트레일리아, 온두라스, 우간다, 우루과이, 일본, 자메이카, 잠비아, 적도 기니, 중앙아프리카공화국, 짐바브웨, 칠레, 카메룬, 카보베르데, 캄보디아, 캐나다, 케냐, 코스타리카, 코코스 제도, 코트디부아르, 콜롬비아, 콩고 공화국, 콩고 민주 공화국, 쿡 제도, 크리스마스섬, 키리바시, 탄자니아, 토켈라우, 통가, 투발루, 튀르키예, 트리니다드 토바고, 파나마, 파라과이, 파키스탄, 파푸아 뉴기니, 팔라우, 페루, 푸에르토리코, 피지, 필리핀, 허드 섬 및 맥도널드 제도.
Whisk는 영국에서 사용할 수 없습니다