Googleは画像処理に特化したモデルPaliGemmaを2024年5月にリリースしましたが、先日進化した「PaliGemma 2」がリリースされました。解像度の高い画像の読みこみができること、画像に対して長いキャプションを生成できること、などが新機能として発表されており、画像処理の分野で、開発手段として期待されています。
PaliGemma 2とは
PaliGemma 2は、視覚と言語を融合したAIモデルであり、前作PaliGemmaをもとに開発されました。高性能なGemma 2モデルをベースに(基盤モデル)、視覚情報の処理能力を追加したことで、さまざまな分野で応用可能となりました。特に微調整の簡便さが向上し、従来よりも手軽にカスタマイズが行えます。
対応可能な画像解像度が広がり、3B、10B、28Bの3種類のモデルサイズと、224ピクセルから896ピクセルまでの解像度に対応。タスクに応じて最適なパフォーマンスを発揮します。
また、長いキャプション(画像の説明)の生成が可能となったことで、単なるオブジェクト認識にとどまらず、画像内のアクションや感情、シーン全体を詳細かつ文脈に即した形で説明できるように。
化学式の認識や楽譜の解析、空間推論、胸部X線レポートの生成など、専門分野における応用能力についても一定の成果が報告されています。
PaliGemma 2は、事前トレーニング済みのモデルがHugging FaceやKaggleといったAI開発プラットフォームから利用することができます。
「PaliGemma 2」について一言
Gemini 1.5 ProをはじめとしてGoogleは画像処理の分野で特に高いパフォーマンスを叩き出している印象です。ちなみに、画像処理といった場合には、画像キャプション生成、物体検出、セグメンテーションといったタスクを対象としており、今回のPaliGemma 2では画像生成は含まれません。
対応解像度、キャプション生成長についてはなるほどという感じですが、化学式や楽譜などにも対応し始めたというのは驚きです。学習データがあれば、ある程度品質を向上できることが示唆されており、今後の拡張にも大いに期待できます。
出所:Introducing PaliGemma 2: Powerful Vision-Language Models, Simple Fine-Tuning