Sora：從文字創建視頻

我們正在教導人工智慧理解和模擬物理世界的運動，目標是訓練模型，幫助人們解決需要真實世界互動的問題。

介紹 Sora，我們的文本轉視頻模型。Sora 可以生成長達一分鐘的視頻，同時保持視覺品質並遵循用戶的提示。

今天，Sora 開始提供給紅隊人員，以評估對於損害或風險至關重要的領域。我們還授權一些視覺藝術家、設計師和電影製作人存取，以獲得如何推進模型以對創意專業人士最有幫助的反饋。

我們提早分享我們的研究進展，以便與OpenAI以外的人合作並獲得他們的反饋，同時讓公眾了解未來人工智能的能力。

Sora 能夠生成具有多個角色、特定類型動作和主題背景的複雜場景。這個模型不僅理解用戶在提示中要求的內容，還能理解這些事物在現實世界中的存在方式。

這個模型對語言有深入的理解，能夠準確解釋提示並生成生動情感的引人入勝角色。Sora還可以在單個生成的視頻中創建多個鏡頭，準確地保留角色和視覺風格。

目前的模型存在一些弱點。它可能在準確模擬複雜場景的物理過程上遇到困難，並且可能無法理解特定的因果關係實例。例如，一個人可能咬下一口餅乾，但之後餅乾上可能沒有咬痕。

這個模型也可能會混淆提示的空間細節，例如混淆左右，並且可能在描述隨時間發生的事件時遇到困難，例如追蹤特定的攝影機軌跡。