OpenAIが新たに発表した「GPT-4o image generation」は、GPT-4oに内蔵されていた画像生成機能が大幅にアップデートされたものです。従来のモデルが提供していた芸術的で視覚的に美しい画像生成だけでなく、ビジネスや教育分野におけるコミュニケーションや情報伝達を重視した画像作成を実現しています。文字や記号を正確に描画できるようになったことで、広告素材や教育資料などで実用的に活用される画像の品質が格段に向上しました。また、ウェブやAPI経由で手軽に画像生成を利用できるため、多くのユーザーにとって身近で便利なツールとして進化を遂げています。

4o image generationの概要
GPT-4oはOpenAIが開発したマルチモーダルモデルで、画像生成機能を備えています。この画像生成機能が今回のアップデートにより、精密な文字や記号の描画が可能となり、ビジネスや教育分野において有効な画像を簡単に生成できるようになりました。利用方法もシンプルで、ウェブアプリ(ChatGPTのインターフェース)やAPIを介してテキストベースの指示を与えるだけで、多様な画像を生成できます。さらに細かな仕様(色やサイズ指定、背景の透明化)も可能となっており、ユーザーのニーズに幅広く対応しています。
4o image generationの機能
GPT-4oの画像生成機能は、情報伝達を目的とした画像作成に特に優れています。例えば、ストリートサインやメニュー、インフォグラフィックのような詳細なテキスト情報を正確に描画することができます。

また、生成した画像をユーザーとの対話を通じて継続的に改善できる「マルチターン生成」も特徴的です。ユーザーのフィードバックを受けて画像を調整し、理想的なイメージへと近づけることが可能です。

さらに、ユーザーがアップロードした画像の情報を文脈に沿って理解し、それに基づいて新たな画像を生成する「文脈に沿った学習」機能も備えています。この機能により、画像間での一貫性を容易に保ちながら、より高度で質の高い画像制作が可能になります。

GPT-4oはまた、リアルなフォトリアリスティック画像からコミカルなイラストまで、多様な表現スタイルに柔軟に対応することができます。
4o image generationの課題
高度な機能を誇るGPT-4oですが、現状ではいくつかの課題も抱えています。特に縦長や詳細なポスター形式の画像を生成する際、意図しない箇所が切り取られるクロッピング問題が確認されています。また、情報認識が不十分な場合には、実在しない内容が画像内に現れる幻覚問題も発生しています。また、小さな文字や多言語テキストの正確なレンダリング、精密な編集など複雑な情報を扱う場合の精度についても、改善の余地があります。特に細かいテキスト情報や微細な編集を必要とする用途においては、精度向上が求められています。OpenAIはこれらの課題を認識しており、今後のアップデートにより順次改善していく計画です。

「4o image generation」について一言
画像生成分野ではかなりの衝撃を与えています。これまでの画像生成はテキストから画像への変換という近未来感を体験するのには十分でしたが、どこかクリエイティブ制作、プレゼンテーション作成などの実務的な現場では使いづらい印象がありました。4o image generationはテキスト表示、編集がかなり直感的にできる点が素晴らしいです。
これまでの画像生成における「AIらしさ」が除外され、より「人間らしい」表現が可能になったことで、この分野ではMidjourneyやStable Diffusionが先行していますが、一気にOpenAIが持っていく可能性もあるかと思います。特に一般ユーザー向けという意味ではChatGPTのデパート感(品揃えという意味で)は強力なので、より魅力的な選択肢となるでしょう。
出所:Introducing 4o Image Generation
