苹果的新人工智能如何颠覆了人工智能世界，发现了GPT-4所忽略的内容 | byAIFocussed.com

图片来源：Business Of Fashion

最近，苹果发布了一种先进的多模式系统，名为Ferret，这在关键的计算机视觉任务上超过了GPT-4，这一消息震惊了人工智能界。这一开创性的人工智能有潜力彻底改变机器如何同时看待和理解图像和文本。

让我们来揭开Ferret如何发挥其魔力以及为什么它标志着科技巨头之间人工智能竞赛的新阶段。

苹果的Ferret系统是如何工作的

苹果的新雪貂模型是如何工作的？

Ferret系统利用多个组件来理解视觉和文本输入：

使用CLIP ViT进行视觉分析

使用CLIP ViT模型来分析图像，并将视觉信息转换为AI可以理解的格式
识别图像中的对象、形状和其他细节

语言理解

分析文本提示，将其转换为系统可以处理的格式
理解对附带图像中特定对象或区域的引用

指代表达理解

结合视觉和文本信息
精确定位图像中的文本提示所指的对象
提供已识别对象/区域的详细描述

通过整合计算机视觉和自然语言处理，Ferret在分解复杂的视觉场景并回应详细提示方面提供无与伦比的准确性。

Ferret与GPT-4的比较

与其他多模态模型的基准测试

苹果公司对抗GPT-4进行了测试，发现在一些关于多模态理解的关键领域中，Ferret表现更优秀。以下是概述：

参考准确性

Ferret更准确地根据文本提示识别和描述图像的小而精确的区域
GPT-4在处理小细节方面存在困难，但在处理高级场景理解方面表现良好

对象定位

Ferret 精准定位复杂图像中的微小物体
GPT-4 无法准确定位拥挤视觉环境中的小物体

在苹果的论文中提到的转介基准中，Ferret的表现优于专业模型，如GPT-4 ROI和Google的Cosmos。在转介表达的对比测试中，它还超过了GPT-4 Vision。

为什么雪貂在哪里表现出色，GPT-4却失灵了

GPT-4是一个非常有能力的人工智能系统，但是苹果的Ferret在GPT-4表现不佳的领域表现出色：

精准引用

Ferret专注于跨模态理解，没有其他任务的干扰
允许极其详细、准确的多模态理解

专业架构

针对图像的细粒度分析进行了优化，特别是在拥挤和复杂的场景中
专为定位和描述图像的小而精确的区域而设计

通过专注于详细的视觉理解，Ferret填补了AI能力中的一个重要空白，而GPT-4则采用了更加通用的方法。

苹果成就的重要性

Ferret的引入对人工智能的未来有重大影响：

推动多模态人工智能的边界

在AI系统中为详细的真实世界视觉理解设定了新的标准
在发展先进的多模态智能方面达到了重要的里程碑

各行各业的应用

通过更好地识别复杂驾驶场景中的物体，可以显著改善自动驾驶车辆的计算机视觉系统
适用于详细的图像标注、虚拟现实/增强现实、视觉聊天机器人等

AI行业的竞争压力

将苹果确立为人工智能领域的创新者，与谷歌、Meta、微软等竞争对手相抗衡
激励科技巨头进一步提升多模态理解能力

通过超越强大的GPT-4的能力，苹果表明自己是前沿人工智能研究和开发的严肃竞争者。这提高了科技巨头竞相解锁人工通用智能的标准。

这对于苹果的人工智能雄心意味着什么

强大的Ferret型号的推出为苹果新兴的人工智能战略提供了线索：

通过先进的生成式人工智能升级Siri

苹果GPT的传闻——一种内部GPT风格模型，可大幅升级Siri、iOS打字建议和其他语言功能 Ferret暗示苹果加速投资于变压器语言模型

多模态AI能力引领

Ferret证明了苹果的机器学习研究处于行业领先地位
期待在视觉人工智能理解能力方面有所突破

Apple产品线整合

Ferret等先进的人工智能为新的高级产品功能铺平了道路
AR/VR、摄像头、自主系统可能会因多模态人工智能的推动而升级

随着像Ferret这样的改变游戏规则的研究正在进行，苹果正在准备释放一些非常先进的人工智能能力。

GPT-4与苹果在人工智能领域的前景

虽然像GPT-4这样的模型仍然在关键的语言任务中占据主导地位，但苹果的专业化方法使其在多模态智能方面具有优势。

GPT-4的持续优势

关于概念、对象和推理的更广泛知识
卓越的对话能力和语言掌握

苹果的差异化

计算机视觉和视觉指代表达的领导地位
针对苹果设备优化的NLP和CV紧密集成

随着GPT-4通过大规模和数据的改进，预计苹果将加大对视频、图像和跨模态任务等领域的投入。在这两个领域的大力投资下，令人兴奋的创新即将到来！

常见问题 — FAQ

什么是Ferret，它与GPT-4有何不同？

Ferret是苹果先进的多模态人工智能系统，在详细的视觉理解方面表现出色，在特定基准测试中超越了GPT-4。

Ferret 如何影响苹果的 Siri 和其他语言功能？

Ferret 暗示 Siri 和 iOS 打字建议将迎来重大升级，展示了苹果在转换器语言模型方面加快投资的努力。

Ferret在AI之外的行业中有哪些潜在应用？

Ferret的应用范围从增强自动驾驶汽车的计算机视觉到改进图像标注、VR/AR和视觉聊天机器人。

苹果如何在人工智能竞赛中与GPT-4区分开来？

尽管 GPT-4 在一般语言任务方面表现出色，但 Apple 的 Ferret 在计算机视觉、视觉引用表达和自然语言处理与计算机视觉的紧密集成方面处于领先地位。

Ferret提供了哪些关于苹果人工智能战略的线索？

Ferret建议苹果专注于在视觉人工智能理解方面取得卓越成就，并在其产品线上进行潜在整合，包括AR/VR、摄像头和自动驾驶系统。

Ferret如何促进真实世界中人工智能系统的发展？

Ferret的引入标志着人工智能迈入了新阶段，展示了类似人类的对真实世界的感知和推理能力，使苹果处于这一进步的最前沿。

结论

苹果的Ferret系统的推出标志着科技巨头之间人工智能竞赛的新阶段。通过在关键的多模态基准测试中超越GPT-4，苹果表明自己是在专门用于详细视觉感知的人工智能能力方面的领导者。随着谷歌、微软和其他公司加强其自身的计算机视觉转换，苹果似乎决心在尖端机器学习领域展开激烈竞争。如果Ferret等模型是任何指标，我们正在接近具有更加类人的感知和推理能力的人工智能系统，能够理解我们周围混乱的现实世界。而苹果现在坚定地站在这一进步的最前沿。

本文最初发表在AIFocussed.com