Google DeepMind と Google Labs は、動画生成モデル「Veo 2」と画像生成モデル「Imagen 3」の最新バージョンを発表しました。「Veo 2」はより長尺かつ高品質で、幻覚表現が対策されています(例:指が6本)。また、「Imagen 3」についてもより明るく、構成の優れた表現が可能です。映像制作やデザインの可能性を広げ、クリエイターやユーザーに新たな表現の道を提供しています。
Veo 2とは
Veo 2 へのアップデートにより、驚くほど高品質な映像を生成可能です。リアリズムに優れたディテールや、現実世界の物理法則の忠実な再現により、映画のような迫力のあるシーンを創り出します。このモデルは、映画撮影の文法を深く理解し、18mmレンズの広角ショットや浅い被写界深度を用いた映像表現など、プロフェッショナルな要素を自在に反映します。最大4Kの解像度で数分間の長尺映像を生成する能力も備え、ローアングルのトラッキングショットや感情豊かなクローズアップといった多彩なシーンをスムーズに作成します。
YouTube Shorts のクリエイターがユニークな背景やビジュアルエフェクトを簡単に作成したり、エンタープライズ顧客が Vertex AI を活用してマーケティングや製品プロモーションに映像を応用したり、映画制作者がプロンプトを入力するだけで複雑なシーンや芸術的な映像を生成したりするなど、多岐にわたる活用例があります。
現在、Veo 2 は Google Labs の「VideoFX」で利用可能であり、順番待ちリストに登録することでアクセスできます。来年以降は、YouTube Shorts やその他のプラットフォームにも展開される予定です。
Imagen 3 とは
Imagen 3 は、画像生成における最先端モデルであり、フォトリアリズムから抽象芸術、アニメーションまで幅広いスタイルに対応します。このモデルはプロンプトへの忠実性が非常に高く、細部にわたる描写が可能です。印象派の絵画から抽象画、フォトリアリズムに至るまで、多様な表現が可能であり、細かいテクスチャや色調、構図まで正確に再現します。
Imagen 3 を利用すれば、広告やデジタルアートの制作において効率化が図られ、高解像度画像を短時間で生成してマーケティング資料やプレゼンテーションに利用することができます。また、エンターテインメント業界ではコンセプトアートやプロトタイプの作成にも活用されています。
このモデルは現在、Google Labs の「ImageFX」で提供されており、初めて利用する場合でも簡単にアクセスできます。Imagen 3 は、すでに世界 100 か国以上で展開されており、グローバルな利用が進んでいます。
「Veo 2とImagen 3 」について一言
OpenAIが動画生成AIのSoraを発表してから間もなく、一般ユーザー向けではないものの、Googleからも動画生成モデルのアップデートが報じられました。、Soraは20秒程度の生成などに対し、生成を繰り返すことで数分程度の尺の動画生成においても、トーンを維持した生成が可能ということで、YoutubeやInstagramの短尺動画については完全に射程に入ってくるでしょう。Googleのサイトにいくつか事例が上がっていますが、どれも撮影した動画を見分けがつきません(物理的法則が考慮されているからでしょうか)。Imagen 3についてはかなりリアルな印象は受けつつも、ほかの画像生成AI同様まだどこかAIぽい印象を受けます。
画像にせよ、動画にせよ、生成したものの、どこか思い通りにいかないということがよくあります。なので、どこまで忠実に編集することができるか、という点が実用面ではかなり大事になるかと思っています。
出所:State-of-the-art video and image generation with Veo 2 and Imagen 3