我們正在教導人工智慧理解和模擬物理世界的運動,目標是訓練模型,幫助人們解決需要真實世界互動的問題。
介紹 Sora,我們的文本轉視頻模型。Sora 可以生成長達一分鐘的視頻,同時保持視覺品質並遵循用戶的提示。
今天,Sora 開始提供給紅隊人員,以評估對於損害或風險至關重要的領域。我們還授權一些視覺藝術家、設計師和電影製作人存取,以獲得如何推進模型以對創意專業人士最有幫助的反饋。
我們提早分享我們的研究進展,以便與OpenAI以外的人合作並獲得他們的反饋,同時讓公眾了解未來人工智能的能力。
Sora 能夠生成具有多個角色、特定類型動作和主題背景的複雜場景。這個模型不僅理解用戶在提示中要求的內容,還能理解這些事物在現實世界中的存在方式。
這個模型對語言有深入的理解,能夠準確解釋提示並生成生動情感的引人入勝角色。Sora還可以在單個生成的視頻中創建多個鏡頭,準確地保留角色和視覺風格。
目前的模型存在一些弱點。它可能在準確模擬複雜場景的物理過程上遇到困難,並且可能無法理解特定的因果關係實例。例如,一個人可能咬下一口餅乾,但之後餅乾上可能沒有咬痕。
這個模型也可能會混淆提示的空間細節,例如混淆左右,並且可能在描述隨時間發生的事件時遇到困難,例如追蹤特定的攝影機軌跡。