Google Gemini 是由 DeepMind 開發的多模式人工智慧,可處理文字、音訊、圖像等內容。它包括三個版本:Ultra、Pro 和 Nano,每個版本針對不同的任務複雜度進行了定制。Gemini 在人工智慧基準測試中表現優異,經過優化以適應各種設備,並經過安全性和偏見測試,遵循負責任的人工智慧實踐。它已準備好整合到 Google 產品中,並可通過 Google AI Studio 和 Google Cloud Vertex AI 使用。
Google Gemini 1.0,有三種不同尺寸:
-
Gemini Ultra — 用於高度複雜任務的最大和最具能力的型號。
-
Gemini Pro — 用於廣泛任務規模化的最佳型號。
-
Gemini Nano — 用於設備上任務最有效率的型號。
最先進的表現
Google Gemini Ultra在大型語言模型基準測試中表現優異,在32項測試中有30項超越了最先進的結果。它在MMLU基準測試中明顯優於人類專家,該測試評估了57個主題(如數學、物理和倫理)的理解能力。Gemini對MMLU的方法強調推理而非第一印象,從而產生了明顯改進的回應。
在我們測試的圖像基準測試中,Gemini Ultra表現優異,並且無需依賴從圖像中提取文本進行進一步處理的物件字符識別(OCR)系統。這些基準測試突顯了Gemini的本地多模態性,並顯示了Gemini更複雜推理能力的早期跡象。
通過多模提示與Google Gemini互動
讓我們來做一個實驗。我們將這張圖片展示給我們的多模型模型 Gemini,並要求它描述它看到的內容:
告訴我你看到了什麼
雙子座:我看到一隻人的右手。手張開,手指分開。
空間推理與邏輯
邏輯和解謎是測試雙子座的有趣方式。讓我們試試一個需要從左到右的空間推理和對我們太陽系的知識的謎題:
這是正確的順序嗎?考慮到與太陽的距離並解釋你的推理。
雙子座:不,正確的順序是太陽、地球、土星。太陽是太陽系中心最接近的,其次是地球,然後是土星。
Google Gemini 相關推文
Google Gemini:常見問題
什麼是雙子座?
Google Gemini 是 Google AI 的最新大型語言模型(LLM),具有多模式處理能力。它可以理解、操作和結合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。
Gemini 與其他 AI 模型有何不同?
Google Gemini與其他模型的主要區別在於其多模式功能,可以處理文本、音頻和圖像等多樣輸入。其版本Ultra、Pro和Nano針對不同的複雜性和設備進行了定制,相比典型的單模式模型,提供了更多的適應性。
Google Gemini 和 Bard 之間的區別?
Gemini 是支持 Bard 的基礎技術。Bard 使用 Gemini 來處理文本、圖像、音頻和視頻。Gemini 和 Bard 可以互補。Gemini 擅長多模式處理,而 Bard 擅長文本處理。結合這兩者可以實現更強大的功能。
Google Gemini 的特點是什麼?
-
多模式處理能力: Google Gemini 能夠理解、操作和結合不同類型的信息,這使其能夠生成更豐富和更具創意的內容。
-
強大的推理能力: Google Gemini 能夠通過理解多種類型的信息來進行更強大的推理,這使其能夠回答更複雜的問題。
-
廣泛的應用場景: Google Gemini 可應用於各種場景,如生成文本、翻譯語言和編寫代碼。
Google Gemini 的應用場景是什麼?
-
生成文本: Google Gemini 可以生成不同格式的文本,如詩歌、代碼、腳本、音樂作品、電子郵件和信件。
-
翻譯語言: Google Gemini 可以翻譯不同語言的文本。
-
編寫代碼: Google Gemini 可以用不同語言編寫代碼。
-
回答問題: Google Gemini 可以回答各種問題,包括開放式、具挑戰性和奇怪的問題。
-
創建內容: Google Gemini 可以創建各種創意內容,如視頻、音樂和藝術。
如何訪問 Google 的 Gemini Pro?
您已經有 Google 帳戶了嗎?在 Bard 內使用 Gemini 就像在瀏覽器中訪問網站並登錄一樣簡單。如果您不願意創建帳戶,Google 將不允許訪問 Bard。Google Workspace 帳戶的用戶可能需要切換到他們的個人電子郵件帳戶來嘗試 Gemini。