GPT-4o vs. GPT-4 vs. Gemini 1.5 ⭐ — 性能分析 | byLars Wiik

OpenAI 最近发布的 GPT-4o 为人工智能语言模型开启了新时代，改变了我们与其互动的方式。

最令人印象深刻的部分是 ChatGPT 支持实时互动和对话中断。

尽管在现场演示过程中出现了一些小问题，但我对团队所取得的成就感到惊叹不已。

最重要的是，在演示结束后，OpenAI 允许访问 GPT-4o API。

在本文中，我将展示我独立进行的分析，测量GPT-4o vs. GPT 4 vs. Google的Gemini和Unicorn模型在我创建的英文数据集上的分类能力。

哪个模型在英语理解方面最强？

Image taken from OpenAI’s live demo — 来源

GPT-4o 有什么新功能？

在最前沿的是全方位模型的概念，旨在无缝理解和处理文本、音频和视频。

OpenAI 的重点似乎已经转向将 GPT-4 级智能民主化，使 GPT-4 级语言模型智能甚至对免费用户也可获得。

OpenAI还宣布，GPT-4o在50多种语言中具有提升的质量和速度，承诺提供更具包容性和全球可访问性的人工智能体验，而且价格更便宜。

他们还提到，付费订阅用户的容量是非付费用户的五倍。

此外，他们将发布一个 ChatGPT 的桌面版本，以便为大众提供跨音频、视觉和文本接口的实时推理。

新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API，使其向后兼容且易于使用。

GPT-4o 也可以通过 ChatGPT 界面使用:

官方评估

OpenAI的博客文章包括已知数据集的评估分数，例如MMLU和HumanEval。

OpenAI 的博客文章包括已知数据集的评估分数，例如 MMLU。

从图表中我们可以得出，GPT-4o的表现可以被归类为该领域的最先进水平——考虑到新模型更便宜且更快，这听起来非常有前景。

然而，在过去的一年里，我见过多个声称在已知数据集上具有最先进语言性能的模型。

实际上，这些模型中的一些已经在这些开放数据集上部分训练（或过拟合），导致在排行榜上得分不现实。如果你感兴趣，可以查看这篇论文。