ChatGPT现在可以看、听和说话 | byAuthors

我们开始在ChatGPT中推出新的语音和图像功能。它们通过允许您进行语音对话或向ChatGPT展示您所谈论的内容，提供了一种新的、更直观的界面类型。

语音和图像为您在生活中使用ChatGPT提供了更多的方式。在旅行时拍摄地标的照片，并进行关于其有趣之处的实时对话。当您回到家时，拍摄冰箱和食品储藏室的照片，找出晚餐吃什么（并针对逐步食谱提出后续问题）。晚餐后，通过拍照来帮助您的孩子解决数学问题，圈出问题集，并让它与您俩分享提示。

我们将在接下来的两周内向ChatGPT Plus和企业用户推出语音和图片功能。语音功能将在iOS和Android上推出（在设置中选择加入），图片功能将在所有平台上提供。

与ChatGPT交谈并让它回答

现在您可以使用语音与助手进行来回对话。在外出时与它交谈，为您的家人要求一则睡前故事，或解决晚餐桌上的争论。

使用语音与您的助手进行一来一回的对话。

要开始使用语音功能，请前往移动应用程序的“设置”→“新功能”，并选择加入语音对话。然后，点击位于主屏幕右上角的耳机按钮，并从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本到语音模型驱动，能够从文本和几秒钟的样本语音生成类似人类的音频。我们与专业的配音演员合作，为每个声音创建了声音。我们还使用Whisper，我们的开源语音识别系统，将您的口头语言转录成文本。

听取语音样本

选择文本

在一片宁静的林地里，有一只名叫莉拉的毛茸茸的妈妈猫。一个阳光明媚的日子，她和她活泼的小猫咪米洛蜷在一棵古老橡树的阴凉下。

“米洛，”莉拉开始说，声音柔和温柔，“你很快就会有一个新的玩伴了。”

米洛好奇地竖起耳朵。“一个新的玩伴？”

莉拉轻声呼噜，“是的，一个妹妹。”

米洛兴奋地睁大眼睛。“一个妹妹？她会像我一样追着尾巴跑吗？”

莉拉笑了笑。“哦，她会有她自己的怪癖。你会教她，对吧？”

米洛急切地点头，已经憧憬着他们将会分享的冒险。

选择语音

聊一聊图片

现在您可以向ChatGPT展示一个或多个图像。排除烧烤炉无法启动的原因，查看冰箱内的食材以计划一顿饭，或者分析工作相关数据的复杂图表。为了专注于图像的特定部分，您可以使用我们移动应用中的绘图工具。

展示 ChatGPT 一个或多个图片。

要开始使用，请点击照片按钮拍摄或选择一张图片。如果你使用的是iOS或Android系统，请先点击加号按钮。你也可以讨论多张图片或使用我们的绘图工具来指导你的助手。

图像理解由多模式GPT-3.5和GPT-4提供支持。这些模型运用其语言推理技能来处理各种图像，如照片、截图和包含文本和图像的文档。

我们正在逐步部署图像和语音功能

OpenAI 的目标是构建安全和有益的通用人工智能。我们相信逐步提供我们的工具，这样可以让我们随着时间的推移进行改进和完善风险缓解措施，同时也为未来更强大的系统做好准备。这种策略在涉及语音和视觉的先进模型中变得更加重要。

语音

新的语音技术——能够从几秒钟的真实语音中制作出逼真的合成声音——为许多创意和专注无障碍的应用打开了大门。然而，这些能力也带来了新的风险，比如恶意行为者可能冒充公众人物或实施欺诈。

这就是为什么我们正在使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员一起创作的。我们也在类似的方式与其他人合作。例如，Spotify正在利用这项技术的力量进行他们的 Voice Translation 功能的试点，该功能帮助播客人扩展其故事的传播范围，通过将播客翻译成其他语言，并使用播客人自己的声音。

图像输入

基于视觉的模型也带来了新的挑战，从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前，我们通过红队人员在极端主义和科学能力等领域测试了模型的风险，并进行了多样化的阿尔法测试。我们的研究使我们能够就负责任的使用达成一些关键细节的一致。

使视觉既有用又安全

与ChatGPT的其他功能一样，视觉功能旨在帮助您日常生活。只有当它能看到您所看到的东西时，它才能发挥最佳作用。

这种方法直接受到我们与Be My Eyes合作的启发，这是一款为盲人和低视力人士提供的免费移动应用，用于了解其使用和局限性。用户告诉我们，他们发现进行关于图片的一般对话很有价值，尤其是当背景中出现人物，比如当你试图调整遥控器设置时，电视上出现了某人。

我们还采取了技术措施，大大限制了ChatGPT分析和直接对人进行陈述的能力，因为ChatGPT并不总是准确的，这些系统应该尊重个人的隐私。

真实世界的使用和反馈将帮助我们进一步完善这些保障措施，同时保持工具的实用性。

关于模型限制的透明度

用户可能会依赖ChatGPT进行专业话题的讨论，例如在研究领域。我们会公开模型的局限性，并不鼓励在没有适当验证的情况下使用高风险用例。此外，该模型擅长转录英文文本，但在一些其他语言，特别是非罗马字母文字的语言中表现不佳。我们建议非英语用户不要将ChatGPT用于此目的。

你可以阅读有关我们对安全的方法以及我们与Be My Eyes合作的更多信息，请参阅图像输入系统卡片。

我们将扩大访问权限

Plus 和 Enterprise 用户将在接下来的两周内体验语音和图片功能。我们很高兴地将这些功能很快推广给其他用户群，包括开发者。