ChatGPT現在可以看見、聽見和說話

內容

我們開始在ChatGPT中推出新的語音和圖像功能。它們提供了一種新的、更直觀的界面類型,讓您可以進行語音對話或向ChatGPT展示您所談論的內容。

聲音和圖像為您在生活中使用ChatGPT提供了更多的方式。在旅行時拍攝地標的照片,並就其有趣之處進行即時對話。當您回到家時,拍攝冰箱和食品櫃的照片,以確定晚餐吃什麼(並提出跟進問題,以獲得逐步食譜)。晚餐後,通過拍照幫助您的孩子解決數學問題,圈出問題集,並讓它與您倆分享提示。

在接下來的兩週內,我們將向Plus和企業用戶推出ChatGPT的語音和圖片功能。語音功能將在iOS和Android上推出(在您的設置中選擇加入),圖片功能將在所有平台上提供。

與ChatGPT對話並讓它回答

您現在可以使用語音與助理進行來回對話。在外出時與它交談,為您的家人要求一個睡前故事,或解決晚餐桌上的爭論。

使用語音與助理進行來回對話。

要開始使用語音功能,請前往手機應用程式的設定→新功能,並選擇加入語音對話。然後,點擊位於主畫面右上角的耳機按鈕,並從五種不同的聲音中選擇您喜歡的聲音。

新的語音功能由新的文本轉語音模型提供支持,能夠從僅有的文本和幾秒鐘的語音樣本生成類似人類的音頻。我們與專業的配音演員合作,為每個語音創建了獨特的聲音。我們還使用了我們的開源語音識別系統 Whisper,將您的口語轉錄為文本。

聽取語音樣本

選擇文字

在一個寧靜的林地裡,有一隻名叫莉拉的毛茸茸媽媽貓。有一天,陽光明媚,她和她活潑的小貓米羅蜷在一棵老橡樹的陰影下擁抱在一起。

“米羅,”莉拉開口了,聲音柔和溫柔,“你很快就會有一個新的玩伴了。”

米羅好奇地耳朵立起來,“一個新的玩伴?”

莉拉咕嚕咕嚕地說,“是的,一個妹妹。”

米羅興奮地睜大了眼睛,“一個妹妹?她會像我一樣追逐尾巴嗎?”

莉拉笑了,“哦,她會有她自己的怪癖。你會教她的,對吧?”

米羅熱切地點點頭,已經夢想著他們將會分享的冒險。

選擇聲音

討論圖片

您現在可以向ChatGPT展示一張或多張圖片。排除烤架無法啟動的問題,查看冰箱內容以計劃一餐,或分析與工作相關的複雜圖表。為了專注於圖片的特定部分,您可以在我們的手機應用程式中使用繪圖工具。

展示 ChatGPT 一張或多張圖片。

要開始使用,請點擊照片按鈕拍攝或選擇圖像。如果您使用的是 iOS 或 Android,請先點擊加號按鈕。您也可以討論多張圖片,或使用我們的繪圖工具來指導您的助理。

圖像理解由多模式GPT-3.5和GPT-4提供動力。這些模型運用其語言推理能力來處理各種圖像,例如照片、截圖和包含文字和圖像的文件。

我們正在逐步部署圖像和語音功能

OpenAI 的目標是建立安全和有益的通用人工智能(AGI)。我們相信逐步提供我們的工具,這樣可以讓我們隨著時間進行改進和風險減輕,同時也為未來更強大的系統做好準備。這種策略在涉及語音和視覺的先進模型中變得更加重要。

聲音

這項新的語音技術能夠從僅有幾秒鐘的真實語音製作出逼真的合成聲音,為許多創意和輔助功能應用打開了大門。然而,這些能力也帶來了新的風險,例如可能有惡意行為者冒充公眾人物或進行詐騙。

這就是為什麼我們正在使用這項技術來支持特定用例——語音聊天。語音聊天是與我們直接合作的配音演員一起創建的。我們也正在以類似的方式與其他人合作。例如,Spotify正在利用這項技術的力量進行他們的 語音翻譯 功能的試點,該功能幫助播客擴大其故事的傳播範圍,將播客轉化為其他語言,並以播客主持人的聲音進行翻譯。

圖片輸入

基於視覺的模型也帶來了新的挑戰,從對人的幻覺到依賴模型對高風險領域圖像的解釋。在更廣泛的部署之前,我們與紅隊成員一起測試了模型在極端主義和科學能力等領域的風險,以及一組多樣化的 alpha 測試人員。我們的研究使我們能夠就負責任的使用達成一些關鍵細節的共識。

讓視覺既有用又安全

與 ChatGPT 的其他功能一樣,視覺功能旨在協助您的日常生活。當它能夠看到您所看到的東西時,它的效果最佳。

這種方法直接受到我們與 Be My Eyes 合作的啟發,這是一款針對視障和低視力人士的免費手機應用程式,用於了解其使用情況和限制。用戶告訴我們,他們發現進行一般性關於包含背景人物的圖像的對話很有價值,例如當你試圖設置遙控器時,電視上出現了某人的情況。

我們還採取了技術措施,顯著限制了ChatGPT分析和直接對人做出陳述的能力,因為ChatGPT並不總是準確的,這些系統應該尊重個人的隱私。

現實世界的使用和反饋將幫助我們使這些保障措施變得更好,同時保持工具的實用性。

關於模型限制的透明度

使用者可能依賴 ChatGPT 來處理專業主題,例如在研究領域。我們對模型的限制進行透明披露,並不鼓勵在沒有適當驗證的情況下使用高風險用例。此外,該模型擅長轉錄英文文本,但在一些其他語言,特別是非羅馬字母文字的語言方面表現不佳。我們建議非英文使用者不要將 ChatGPT 用於此目的。

您可以閱讀有關我們對安全的方法以及我們與Be My Eyes合作的更多資訊,請參閱系統卡片圖像輸入

我們將擴大訪問權限

Plus 和 Enterprise 用戶將在接下來的兩週內體驗語音和圖片功能。我們很高興將這些功能擴展給其他用戶群,包括開發者,在不久之後。

總結
ChatGPT推出了新的語音和圖像功能,讓用戶可以進行語音對話或展示圖像,提供更直觀的界面。這些功能讓用戶在生活中有更多應用方式,例如在旅行中拍攝地標並進行即時對話,或在家中拍攝冰箱和食品櫃來計劃晚餐。語音功能由新的文本轉語音模型提供,圖像理解則由多模式GPT-3.5和GPT-4提供。OpenAI逐步部署這些功能,並強調安全和負責任的使用。未來將擴大對開發者等其他用戶群體的開放。