Sora:從文字創建視頻

內容

我們正在教導人工智慧理解和模擬物理世界的運動,目標是訓練模型,幫助人們解決需要真實世界互動的問題。

介紹 Sora,我們的文本轉視頻模型。Sora 可以生成長達一分鐘的視頻,同時保持視覺品質並遵循用戶的提示。

今天,Sora 開始提供給紅隊人員,以評估對於損害或風險至關重要的領域。我們還授權一些視覺藝術家、設計師和電影製作人存取,以獲得如何推進模型以對創意專業人士最有幫助的反饋。

我們提早分享我們的研究進展,以便與OpenAI以外的人合作並獲得他們的反饋,同時讓公眾了解未來人工智能的能力。

Sora 能夠生成具有多個角色、特定類型動作和主題背景的複雜場景。這個模型不僅理解用戶在提示中要求的內容,還能理解這些事物在現實世界中的存在方式。

這個模型對語言有深入的理解,能夠準確解釋提示並生成生動情感的引人入勝角色。Sora還可以在單個生成的視頻中創建多個鏡頭,準確地保留角色和視覺風格。

目前的模型存在一些弱點。它可能在準確模擬複雜場景的物理過程上遇到困難,並且可能無法理解特定的因果關係實例。例如,一個人可能咬下一口餅乾,但之後餅乾上可能沒有咬痕。

這個模型也可能會混淆提示的空間細節,例如混淆左右,並且可能在描述隨時間發生的事件時遇到困難,例如追蹤特定的攝影機軌跡。

總結
OpenAI推出了名為Sora的文本到視頻模型,能生成高質量且符合用戶提示的長達一分鐘的視頻。Sora將開放給紅隊測試員和視覺藝術家使用,並期待他們的反饋。該模型能生成包含多個角色、特定動作和準確細節的複雜場景,並具有深刻的語言理解能力。然而,目前模型存在一些弱點,如無法準確模擬複雜場景的物理特性,以及理解特定因果關係的能力不足。