图片来源于OpenAI新闻页面
OpenAI 最近发布的 GPT-4o 为人工智能语言模型开启了新时代,改变了我们与其互动的方式。
最令人印象深刻的部分是 ChatGPT 支持实时互动和对话中断。
尽管在现场演示过程中出现了一些小问题,但我对团队所取得的成就感到惊叹不已。
最重要的是,在演示结束后,OpenAI 允许访问 GPT-4o API。
在本文中,我将展示我独立进行的分析,测量GPT-4o vs. GPT 4 vs. Google的Gemini和Unicorn模型在我创建的英文数据集上的分类能力。
哪个模型在英语理解方面最强?
Image taken from OpenAI’s live demo — 来源
GPT-4o 有什么新功能?
在最前沿的是全方位模型的概念,旨在无缝理解和处理文本、音频和视频。
OpenAI 的重点似乎已经转向将 GPT-4 级智能民主化,使 GPT-4 级语言模型智能甚至对免费用户也可获得。
OpenAI还宣布,GPT-4o在50多种语言中具有提升的质量和速度,承诺提供更具包容性和全球可访问性的人工智能体验,而且价格更便宜。
他们还提到,付费订阅用户的容量是非付费用户的五倍。
此外,他们将发布一个 ChatGPT 的桌面版本,以便为大众提供跨音频、视觉和文本接口的实时推理。
新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。
GPT-4o 也可以通过 ChatGPT 界面使用:
官方评估
OpenAI的博客文章包括已知数据集的评估分数,例如MMLU和HumanEval。
OpenAI 的博客文章包括已知数据集的评估分数,例如 MMLU。
从图表中我们可以得出,GPT-4o的表现可以被归类为该领域的最先进水平——考虑到新模型更便宜且更快,这听起来非常有前景。
然而,在过去的一年里,我见过多个声称在已知数据集上具有最先进语言性能的模型。
实际上,这些模型中的一些已经在这些开放数据集上部分训练(或过拟合),导致在排行榜上得分不现实。如果你感兴趣,可以查看这篇论文。