ChatGPT现在可以看、听和说话

内容

我们开始在ChatGPT中推出新的语音和图像功能。它们通过允许您进行语音对话或向ChatGPT展示您所谈论的内容,提供了一种新的、更直观的界面类型。

语音和图像为您在生活中使用ChatGPT提供了更多的方式。在旅行时拍摄地标的照片,并进行关于其有趣之处的实时对话。当您回到家时,拍摄冰箱和食品储藏室的照片,找出晚餐吃什么(并针对逐步食谱提出后续问题)。晚餐后,通过拍照来帮助您的孩子解决数学问题,圈出问题集,并让它与您俩分享提示。

我们将在接下来的两周内向ChatGPT Plus和企业用户推出语音和图片功能。语音功能将在iOS和Android上推出(在设置中选择加入),图片功能将在所有平台上提供。

与ChatGPT交谈并让它回答

现在您可以使用语音与助手进行来回对话。在外出时与它交谈,为您的家人要求一则睡前故事,或解决晚餐桌上的争论。

使用语音与您的助手进行一来一回的对话。

要开始使用语音功能,请前往移动应用程序的“设置”→“新功能”,并选择加入语音对话。然后,点击位于主屏幕右上角的耳机按钮,并从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本到语音模型驱动,能够从文本和几秒钟的样本语音生成类似人类的音频。我们与专业的配音演员合作,为每个声音创建了声音。我们还使用Whisper,我们的开源语音识别系统,将您的口头语言转录成文本。

听取语音样本

选择文本

在一片宁静的林地里,有一只名叫莉拉的毛茸茸的妈妈猫。一个阳光明媚的日子,她和她活泼的小猫咪米洛蜷在一棵古老橡树的阴凉下。

“米洛,”莉拉开始说,声音柔和温柔,“你很快就会有一个新的玩伴了。”

米洛好奇地竖起耳朵。“一个新的玩伴?”

莉拉轻声呼噜,“是的,一个妹妹。”

米洛兴奋地睁大眼睛。“一个妹妹?她会像我一样追着尾巴跑吗?”

莉拉笑了笑。“哦,她会有她自己的怪癖。你会教她,对吧?”

米洛急切地点头,已经憧憬着他们将会分享的冒险。

选择语音

聊一聊图片

现在您可以向ChatGPT展示一个或多个图像。排除烧烤炉无法启动的原因,查看冰箱内的食材以计划一顿饭,或者分析工作相关数据的复杂图表。为了专注于图像的特定部分,您可以使用我们移动应用中的绘图工具。

展示 ChatGPT 一个或多个图片。

要开始使用,请点击照片按钮拍摄或选择一张图片。如果你使用的是iOS或Android系统,请先点击加号按钮。你也可以讨论多张图片或使用我们的绘图工具来指导你的助手。

图像理解由多模式GPT-3.5和GPT-4提供支持。这些模型运用其语言推理技能来处理各种图像,如照片、截图和包含文本和图像的文档。

我们正在逐步部署图像和语音功能

OpenAI 的目标是构建安全和有益的通用人工智能。我们相信逐步提供我们的工具,这样可以让我们随着时间的推移进行改进和完善风险缓解措施,同时也为未来更强大的系统做好准备。这种策略在涉及语音和视觉的先进模型中变得更加重要。

语音

新的语音技术——能够从几秒钟的真实语音中制作出逼真的合成声音——为许多创意和专注无障碍的应用打开了大门。然而,这些能力也带来了新的风险,比如恶意行为者可能冒充公众人物或实施欺诈。

这就是为什么我们正在使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员一起创作的。我们也在类似的方式与其他人合作。例如,Spotify正在利用这项技术的力量进行他们的 Voice Translation 功能的试点,该功能帮助播客人扩展其故事的传播范围,通过将播客翻译成其他语言,并使用播客人自己的声音。

图像输入

基于视觉的模型也带来了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,我们通过红队人员在极端主义和科学能力等领域测试了模型的风险,并进行了多样化的阿尔法测试。我们的研究使我们能够就负责任的使用达成一些关键细节的一致。

使视觉既有用又安全

与ChatGPT的其他功能一样,视觉功能旨在帮助您日常生活。只有当它能看到您所看到的东西时,它才能发挥最佳作用。

这种方法直接受到我们与Be My Eyes合作的启发,这是一款为盲人和低视力人士提供的免费移动应用,用于了解其使用和局限性。用户告诉我们,他们发现进行关于图片的一般对话很有价值,尤其是当背景中出现人物,比如当你试图调整遥控器设置时,电视上出现了某人。

我们还采取了技术措施,大大限制了ChatGPT分析和直接对人进行陈述的能力,因为ChatGPT并不总是准确的,这些系统应该尊重个人的隐私。

真实世界的使用和反馈将帮助我们进一步完善这些保障措施,同时保持工具的实用性。

关于模型限制的透明度

用户可能会依赖ChatGPT进行专业话题的讨论,例如在研究领域。我们会公开模型的局限性,并不鼓励在没有适当验证的情况下使用高风险用例。此外,该模型擅长转录英文文本,但在一些其他语言,特别是非罗马字母文字的语言中表现不佳。我们建议非英语用户不要将ChatGPT用于此目的。

你可以阅读有关我们对安全的方法以及我们与Be My Eyes合作的更多信息,请参阅图像输入系统卡片

我们将扩大访问权限

Plus 和 Enterprise 用户将在接下来的两周内体验语音和图片功能。我们很高兴地将这些功能很快推广给其他用户群,包括开发者。

总结
ChatGPT正在推出新的语音和图像功能,为Plus和企业用户提供更直观的界面体验。语音功能可以进行对话,图像功能可以展示图片并进行分析。语音功能由新的文本到语音模型提供支持,图像功能由多模态GPT-3.5和GPT-4提供支持。OpenAI的目标是逐步提供这些功能,以便改进和减少风险,并为未来更强大的系统做准备。