蘋果的新人工智慧如何顛覆了人工智慧世界，看見了 GPT-4 忽略的部分 | byAIFocussed.com

圖片來源：時尚商業

最近，蘋果公佈了一個先進的多模式系統，名為Ferret，顛覆了GPT-4在關鍵的電腦視覺任務上。這一突破性的人工智能有潛力革新機器如何一同看待和理解圖像和文字。

讓我們來解析Ferret如何發揮其魔力，以及為什麼它標誌著科技巨頭之間人工智慧競賽的新階段。

蘋果的Ferret系統是如何運作的

蘋果的新雪貂模型是如何運作的？

Ferret 系統利用多個組件來理解視覺和文本輸入：

使用 CLIP ViT 進行視覺分析

使用CLIP ViT 模型來分析圖像，並將視覺信息轉換為 AI 可理解的格式
辨識圖像中的物體、形狀和其他細節

語言理解

分析文本提示，將其轉換為系統可以處理的格式
理解對附帶的圖像中特定物件或區域的引用

參照表達理解

結合視覺和文字信息
精確定位圖像中的文本提示所指的物體 text prompts within the image
提供識別物體/區域的詳細描述

通過整合計算機視覺和自然語言處理，Ferret在分析複雜的視覺場景並回應詳細提示方面提供無與倫比的準確性。

Ferret 與 GPT-4 的比較

與其他多模型模型進行基準測試

蘋果公司對抗GPT-4進行了Ferret測試，發現在多模式理解的一些關鍵領域表現優越。以下是概述：

參照準確度

Ferret更準確地根據文字提示識別和描述圖像的小而精確的區域
GPT-4在處理細節方面有困難，但在高層次場景理解方面表現良好

物件定位

Ferret能精確地在複雜圖像中定位甚至微小的物體
GPT-4無法在擁擠的視覺環境中準確定位小物體

在蘋果公司的文件中提到的轉介基準中，Ferret的表現優於像GPT-4 ROI和Google的Cosmos這樣的專門模型。在轉介表達的並列測試中，它也超過了GPT-4 Vision。

為什麼Ferret在GPT-4失敗的地方表現出色

GPT-4 是一個非常有能力的人工智慧系統，但蘋果的Ferret在GPT-4表現不佳的領域脫穎而出：

精確引用

Ferret 專注於跨模態理解，不受其他任務的干擾
允許極其詳細、準確的多模態理解

專業架構

針對圖像的精細分析進行優化，特別是在擁擠和複雜的場景中
專為定位和描述圖像中的小而精確的區域而設計

透過專注於詳細的視覺理解，Ferret填補了人工智慧能力中的一個重要空白，而GPT-4則採取了更加通用的方法。

蘋果成就的重要性

Ferret的引入對人工智慧的未來有著重大的影響：

拓展多模式人工智能的界限

在AI系統中設定了對於詳細的、真實世界的視覺理解的新標準
在發展先進的多模式智能方面達到了重要的里程碑

各行各業的應用

通過更好地識別複雜駕駛情境中的物體，可以顯著改善自動駕駛汽車的電腦視覺系統
對於詳細的圖像標註、虛擬現實/擴增實境、視覺聊天機器人等方面非常有用

AI產業的競爭壓力

將蘋果確立為在人工智慧領域的創新者，與谷歌、Meta、微軟等競爭對手相抗衡
激勵科技巨頭進一步提升多模式理解能力

蘋果超越強大的 GPT-4 的能力，顯示它在尖端人工智慧研究和開發中是一個嚴肅的競爭者。這提高了科技巨頭競相解鎖人工通用智能的標準。

這對蘋果的人工智能抱負意味著什麼

強大的Ferret型號的推出提供了關於蘋果新興人工智慧戰略的線索：

透過先進生成式人工智慧升級 Siri

有關「蘋果 GPT」的傳聞 — 一種內部 GPT 風格模型，可大幅升級 Siri、iOS 打字建議和其他語言功能
Ferret 暗示蘋果正在加速投資於變壓器語言模型

多模式人工智能能力引領

*Ferret證明蘋果的機器學習研究處於行業領先地位 *期待專注於優秀的視覺人工智能理解能力

跨蘋果產品線整合

像Ferret這樣的尖端人工智慧為新的高級產品功能鋪平了道路
AR/VR、相機、自主系統可能會因多模式人工智慧的推動而升級

隨著像Ferret這樣的改變遊戲規則的研究進行中，蘋果正準備釋放一些非常先進的人工智能能力。

GPT-4與蘋果在人工智慧領域的前景

儘管像GPT-4這樣的模型仍然在關鍵語言任務中占主導地位，但蘋果的專業方法使其在多模態智能方面具有優勢。

GPT-4的持續優勢

更廣泛的對概念、物體和推理的知識
出色的會話能力和語言精通

蘋果的差異化

領導地位在電腦視覺、視覺指稱表達方面
緊密整合 NLP 和 CV，並針對蘋果設備進行優化

隨著GPT-4通過大規模和數據的改進，預計蘋果將會在視頻、圖像和跨模態任務等領域加大投入。在這兩個領域的大量投資下，令人振奮的創新即將到來！

常見問題 — FAQ

什麼是Ferret，它與GPT-4有何不同？

Ferret 是蘋果先進的多模式人工智慧系統，擅長於詳細的視覺理解，在特定基準上超越了 GPT-4。

Ferret 如何影響蘋果的 Siri 和其他語言功能？

Ferret 暗示 Siri 和 iOS 打字建議將有重大升級，展示蘋果對變壓器語言模型的加速投資。

Ferret 在 AI 以外的行業中有哪些潛在應用？

Ferret 的應用範圍從增強自駕車的電腦視覺到改善圖像標註、VR/AR 和視覺聊天機器人。

蘋果如何在人工智慧競賽中與 GPT-4 區別自己？

儘管 GPT-4 在一般語言任務方面表現出色，但蘋果的 Ferret 在計算機視覺、視覺參照表達和自然語言處理與計算機視覺的緊密整合方面領先。

Ferret 提供了哪些關於蘋果人工智慧戰略的線索？

Ferret建議蘋果專注於優秀的視覺人工智能理解，並可能在其產品線上進行整合，包括AR/VR、相機和自動系統。

Ferret 如何促進真實世界中人工智慧系統的演進？

Ferret的引入標誌著人工智能的新階段，展示了人類般在感知和推理真實世界方面的精湛技藝，使蘋果處於這一進步的最前沿。

結論

蘋果的Ferret系統的推出標誌著科技巨頭之間人工智能競賽的新階段。通過在關鍵的多模態基準測試中超越GPT-4，蘋果表明自己是在專注於詳細的視覺感知能力方面的人工智能領域的領導者。當谷歌、微軟和其他公司加強自己的計算機視覺轉換時，蘋果似乎決心在尖端機器學習領域進行競爭。如果像Ferret這樣的模型是任何指標，我們正在接近具有更加類似人類的感知和推理能力的人工智能系統。而蘋果現在堅定地站在這一進步的最前沿。

這篇文章最初發表在AIFocussed.com上