ジェミニは、最初から異なるモダリティにわたる事前トレーニングを行うよう設計されています。その後、追加のマルチモーダルデータを使用して微調整し、その効果をさらに高めます。これにより、ジェミニは初期段階からさまざまなタイプの入力をスムーズに理解し、推論することができ、ほぼすべての領域で既存のマルチモーダルモデルを大きく凌駕します。
- Gemini 1.0は、複雑な文章や視覚情報を理解するのに役立つ洗練されたマルチモーダル推論能力を持っています。このユニークなスキルセットにより、Gemini 1.0は広範囲のデータセット内の洞察力のある知識コンテンツを明らかにすることができます。
- 訓練されたGemini 1.0は、テキスト、画像、音声などを同時に認識し理解することができます。その結果、微妙な情報を理解し、複雑な主題に関連する質問に答えることに優れています。これにより、数学や物理学などの複雑な主題での推論に特に優れています。
- 私たちの第一世代のGeminiは、Python、Java、C++、Goなどの世界で最も人気のあるプログラミング言語で高品質のコードを理解し、解釈し、生成することができます。クロス言語の機能と複雑な情報について推論する能力は、コーディングのための世界をリードする基本モデルの1つとして位置付けられています。