GPT-4o vs. GPT-4 vs. Gemini 1.5 ⭐ — 性能分析

内容

图片来源于OpenAI新闻页面

OpenAI 最近发布的 GPT-4o 为人工智能语言模型开启了新时代,改变了我们与其互动的方式。

最令人印象深刻的部分是 ChatGPT 支持实时互动对话中断

尽管在现场演示过程中出现了一些小问题,但我对团队所取得的成就感到惊叹不已。

最重要的是,在演示结束后,OpenAI 允许访问 GPT-4o API。

在本文中,我将展示我独立进行的分析,测量GPT-4o vs. GPT 4 vs. Google的Gemini和Unicorn模型在我创建的英文数据集上的分类能力。

哪个模型在英语理解方面最强?

Image taken from OpenAI’s live demo — 来源

GPT-4o 有什么新功能?

在最前沿的是全方位模型的概念,旨在无缝理解和处理文本、音频和视频。

OpenAI 的重点似乎已经转向将 GPT-4 级智能民主化,使 GPT-4 级语言模型智能甚至对免费用户也可获得。

OpenAI还宣布,GPT-4o在50多种语言中具有提升的质量和速度,承诺提供更具包容性和全球可访问性的人工智能体验,而且价格更便宜。

他们还提到,付费订阅用户的容量是非付费用户的五倍。

此外,他们将发布一个 ChatGPT 的桌面版本,以便为大众提供跨音频、视觉和文本接口的实时推理。

新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。

GPT-4o 也可以通过 ChatGPT 界面使用:

官方评估

OpenAI的博客文章包括已知数据集的评估分数,例如MMLU和HumanEval。

OpenAI 的博客文章包括已知数据集的评估分数,例如 MMLU。

从图表中我们可以得出,GPT-4o的表现可以被归类为该领域的最先进水平——考虑到新模型更便宜且更快,这听起来非常有前景。

然而,在过去的一年里,我见过多个声称在已知数据集上具有最先进语言性能的模型。

实际上,这些模型中的一些已经在这些开放数据集上部分训练(或过拟合),导致在排行榜上得分不现实。如果你感兴趣,可以查看这篇论文

总结
OpenAI最近发布的GPT-4o为AI语言模型开启了新时代,支持与ChatGPT的实时互动,表现令人惊叹。GPT-4o旨在民主化GPT-4级智能,提供更多语言支持和更快速度,性能在评估中表现出色。作者使用自己创建的英文数据集对GPT-4o、GPT-4、Gemini和Unicorn等模型进行了分类能力评估,结果显示GPT-4o表现最佳。独立评估揭示了这些先进语言模型的最新能力,强调了继续使用多样化数据集进行独立评估的重要性。