Gemma 3 は、Google DeepMind が開発した最新のオープンウェイト言語モデルです。その特徴は以下の通りです。
1. マルチモーダル対応:
- 従来のモデルがテキストのみを扱っていたのに対し、Gemma 3 は画像とテキストの両方を入力として受け付けることができます。これにより、画像の内容を理解し、それに基づいてテキストを生成したり、質問に答えたりすることが可能になります。
- 画像入力の仕組みとして、SigLIP という視覚エンコーダが採用されています。
2. 効率的なアーキテクチャ:
- 計算効率を向上させるために、Transformer の構造が最適化されています。
- スライディングウィンドウアテンションという技術が導入されており、長いテキストを扱う際に計算コストを削減しています。
- KV キャッシュを大幅に削減することで、メモリ使用量を抑えています。
3. 知識蒸留:
- より高性能なモデル(Gemini 系列の可能性が高い)からの知識をGemma 3 に伝達するために、知識蒸留という技術が用いられています。これにより、Gemma 3 はより少ないデータで高い性能を発揮することができます。
4. 異なる解像度の画像への対応:
- Pan & Scan という技術により、異なる解像度の画像を統一的な解像度に変換して処理することができます。これにより、可変解像度の画像を扱う際の柔軟性が向上しています。
5. モデルの規模:
- 1B、4B、12B、27B の異なるパラメータ規模のモデルが提供されており、用途に合わせて最適なモデルを選択することができます。
6. 性能:
- 4B モデルは、27B モデルに匹敵する性能を誇り、Gemini 1.5 Pro に匹敵するほどの高性能を実現しています。
全体として、Gemma 3 は、画像とテキストの両方を理解し、それらを組み合わせて高度なタスクを実行できる、非常に強力な言語モデルです。 開発者や研究者は、このモデルを活用して、画像認識、画像生成、質問応答、翻訳など、様々な分野で革新的なアプリケーションを開発することが期待されています。
参考:
Googleの新モデル「Gemma 3」:デバイス単体で最先端AIが動く時代に – 株式会社ProFab
【Gemma 3】軽量&マルチモーダル処理が可能な高性能!GoogleのオープンAIモデル解説 | WEEL
次世代AI「Gemma3」徹底解説: あなたのプロジェクトを加速させる新たな可能性|りんか | AI情報発信 /ビジネス/研究
【Gemma3】ローカルLLMはここまで来た!メリット・精度・使い方を確認
Google最新AI「Gemma 3」徹底解説 – Shikata Ga Nai
LM StudioでローカルでGemma3を試す – うさラボ
コメントを残す