マジックをはじめよう Google は画像を作成するために「プロンプトの作成方法を学ぶ」必要はないと考えています。アイデアの試行錯誤、調整、組み合わせは、簡単かつ視覚的に、友人と一緒に作業するような感覚で行えるのが理想です。そこで Google は新しい方法に挑戦しました。
labs.google/fx の最新の試験運用版 画像生成ツールである Whisk は、すばやく視覚的にアイディエーションすることに焦点を当てており、プロンプト作成に関する深い知識を必要としません。
2 つの画像をアップロードし、大まかなイメージ(シーン、テーマ、スタイル)を Whisk に伝えると、それぞれの画像の特徴を反映させた新しい画像が生成されます。ユーザーは生成された画像をもとに、さらにアイディエーションを続けることができます。
このツールのバックグラウンドでは、ユーザーがアップロードした画像の詳細なキャプション(テキストの説明)が Gemini モデルによって作成されます。作成されたキャプションは Google の最新画像生成モデルである Imagen 3 に取り込まれます。
絵をぬいぐるみにしたり、素敵なホリデーカードを作成したり、物語の冒頭部分を画像で表現したりなど、さまざまなコンテンツの作成に Whisk をご活用ください。
Whisk Animate は、サポート対象の国で Google One AI プレミアムをご利用のお客様を対象とした新機能です。この機能を使用すると、生成された画像を Veo 2 でショート動画に変換できます。月 100 本の動画を生成できます(動画生成のクレジットは累積されません)。
Whisk なら生成も簡単arrow_drop_down 準備
Whisk に分析と組み合わせを行わせるためのビジュアル要素を用意します。画像をドラッグ&ドロップしてフォルダからアップロードします。テキスト プロンプトを使って簡単な参照情報を提供することもできます。または「おまかせ」を選択するか「サイコロを振る」機能を使ってアイデアを提案してもらうこともできます。
ツールのバックグラウンドでは、これらのアセットを Gemini が視覚的に理解してキャプションを作成します。作成されたテキストの説明を Whisk が使用します。 [編集] をクリックすると、内容が適切かを確認したり、必要に応じて調整したりできます。
生成
各画像をミックスしていきます。アセット(1 つ以上のテーマ、1 つのシーン、1 つのスタイル)を選択すると、それらがシステムによってクリエイティブに組み合わされます。
Whisk が生成した画像を確認して、調整を加えていきましょう。簡単なインプットを追加して、ちょっとした遊び心を入れたり、イマジネーションを膨らませたりすることもできます。
「キャラクターにアイスクリームを食べさせて」 「恐竜と猫がハイタッチしている」 「エナメルピンを円形にして」 「カラーパターンをパステルカラーに変更して」
ツールのバックグラウンドでは、Gemini がキャプションとユーザーのインプットをまとめて、独自のプロンプトを作成します。 [編集] をクリックすると Imagen 3 へのプロンプトを確認できます。
調整
大体満足のいく画像ができても、帽子の色が気に入らなかったり、背景に夕日を入れたりしたい場合は、調整モードに切り替えて、本来の方向性から大きく外れることのない、ちょっとした変更を加えるよう指示します。
ツールのバックグラウンドでは、Gemini がユーザーの指示に基づいてプロンプトを更新します。 そのプロンプトからすべてのピクセルが再生成されますが、モデルが大幅な変更を加えることはありません。
診断
実際、見当違いな画像が生成されてしまうこともあります。一部の要素が漏れていたり、求めていたものとは違ったりすることもあるかもしれません。
上記のどの段階においても、プロンプト ボタン / アイコンをクリックして基礎となるプロンプトを診断して編集したり、重要な詳細を手動で追加したり、モデルにさらにオプションを生成するようリクエストしたりできます。つまり、主体はあくまでもユーザーのみなさんです。
各カテゴリの内容arrow_drop_down テーマ
何に関する画像かを示します。キャラクター、オブジェクト、またはその組み合わせです。古いダイヤル式電話機、素敵な椅子、ボール紙でできた映画の展示物、ルネサンス時代のミステリアスな吸血鬼などです。方向性 を示すために自分をテーマに設定して、どのような結果になるかを確認することもできます。
シーン
テーマの舞台となる場所です。ファッション ショーのランウェイや、ポップアップ式のホリデーカードなどです。そのシーンにキャラクターを追加して、すでにいるキャラクターと一緒に登場させたり、入れ替えたりすることもできます。ぜひお試しください。
スタイル
テーマとシーンを表現するためのデザイン、素材、手法についてより詳しく指示する場合は、スタイルを使用します。なかでも特に重要な要素については、メインのプロンプト ボックスで指定することができます。
詳細を追加する際は自然言語で説明でき(「誕生日ディナーがテーマです」など)、Whisk はその内容を取り入れます。
Whisk の仕組みarrow_drop_down 別々の画像の要素を組み合わせるには、まずアップロードされた各画像の内容を把握する必要があります。そこで役に立つのが Gemini のマルチモーダル理解です。ユーザーが画像をアップロードすると、Whisk は Gemini を使用してその画像を視覚的に理解し、画像についてのテキストの説明(またはキャプション)を生成します(つまり、画像をテキストに変換します)。テキストの説明は、アイデアを組み合わせるために必要な画像の本質を捉えることが目的であり、オリジナルのレプリカを作ることが目的ではありません。
こうしたキャプションを使って記述された詳細なプロンプトに基づき、Google の最新かつ最も高性能な画像生成モデルである Imagen 3 で新しい画像が生成されます(つまり、テキストを画像に変換し直します)。
Whisk Animate では、Whisk で生成した画像の動かし方を指定することで、Veo 2 を使って画像をショート動画に変換できます。
このプロセスにより、Whisk はユーザーが形にしようとしているアイデアをより詳細に理解し、表現できるようになります。また、ユーザーと対話しながらこの作業を繰り返すことができます。
キャラクターが思っていたものと違いました。修正するにはどうすればよいですか?arrow_drop_down 生成された画像はアップロードされた画像と似ているだけで、正確なコピーではありません。試験運用版では、提供された画像から Whisk が主な特徴だけを抽出し、これを基に AI モデルが画像を生成します。目的は正確なレプリカを作成することではなく、テーマの本質を捉えることです。
そのため、生成される画像の表現は異なる場合があります。たとえば、テーマとして指定したキャラクターの身長や体重、または髪型や肌の色が異なることがあります。こうした特徴がキャラクターに欠かせない重要な要素である場合は、結果をご自身のビジョンに近づけるために、より詳細なプロンプトを提供したり、指示内容を調整したりすることをおすすめします。
右上のメニューからフィードバックを送信できます。
Whisk はどこで利用できますか?arrow_drop_down Google は、できるだけ多くの人々にツールをご利用いただけるよう取り組んでいます。Whisk は、labs.google/fx にアクセスできるすべての国(英国を除く)で 18 歳以上のユーザーにご利用いただけます。
Whisk Animate はどこで利用できますか?arrow_drop_down Whisk Animate は現在、以下の国の Google One AI プレミアム 会員様が利用でき、月に 100 本の動画を生成可能です。米領サモア、アンゴラ、アンティグア バーブーダ、アルゼンチン、オーストラリア、バハマ、ベリーズ、ベナン、ボリビア、ボツワナ、ブラジル、ブルキナファソ、カーボベルデ、カンボジア、カメルーン、カナダ、チリ、コートジボワール、コロンビア、コスタリカ、ドミニカ共和国、エクアドル、エルサルバドル、フィジー、ガボン、ガーナ、グアム、グアテマラ、ホンジュラス、ジャマイカ、日本、ケニア、ラオス、マレーシア、マリ、モーリシャス、メキシコ、モザンビーク、ナミビア、ネパール、ニュージーランド、ニカラグア、ニジェール、ナイジェリア、北マリアナ諸島、パキスタン、パラオ、パナマ、パプアニューギニア、パラグアイ、ペルー、フィリピン、プエルトリコ、ルワンダ、セネガル、セーシェル、シエラレオネ、シンガポール、南アフリカ、韓国、スリランカ、タンザニア、トンガ、トリニダードトバゴ、トルコ、米領バージン諸島、ウガンダ、米国、ウルグアイ、ベネズエラ、ザンビア、ジンバブエ。Whisk Animate によって、Whisk で生成した画像を動かし、命を吹き込むことができます。
生成したコンテンツを共有することはできますか?arrow_drop_down はい。ダウンロード アイコンをクリックすると、保存して共有できます。作品をぜひ
Discord チャネル から Google に共有してください。
制作した作品を商業目的で使用できますか?arrow_drop_down Whisk の使用に適用される
利用規約 について、規約全体を参照および遵守していただく必要があります。この利用規約に基づき、Google の一部のサービスは、ユーザーによるオリジナル コンテンツの生成を許可しています。Google がそのコンテンツに対する所有権を主張することはありません。
もっと作成arrow_drop_down ユーザーデータ、ユーザー履歴、生成に関するポリシー、フィードバックの送信方法などについては、labs.google/fx の
よくある質問 をご覧ください。