Sora: テキストからビデオを作成

コンテンツ

私たちは、AIに物理世界の動きを理解しシミュレートすることを教えており、現実世界での相互作用を必要とする問題を解決するのに役立つモデルを訓練することを目指しています。

Soraという、テキストからビデオを生成するモデルを紹介します。Soraは、ビジュアルの品質を維持しながら、ユーザーの指示に従って最大1分の長さのビデオを生成することができます。

今日、Soraは赤チームに利用可能になり、害やリスクの重要な領域を評価するためのアクセスを提供しています。また、視覚芸術家、デザイナー、映像作家にもアクセスを提供し、モデルをクリエイティブプロフェッショナルにとって最も役立つように進化させるためのフィードバックを得る予定です。

OpenAIの外の人々と協力し、フィードバックを得るために、研究の進捗状況を早期に共有し、AIの可能性が将来どのようになるかを一般に示すためです。

Soraは、複数のキャラクターを含む複雑なシーン、特定の動き、被写体や背景の正確なディテールを生成することができます。このモデルは、ユーザーが提示した要求だけでなく、それらのものが物理世界にどのように存在するかも理解しています。

モデルは言語の深い理解を持ち、的確にプロンプトを解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。Soraはまた、1つの生成されたビデオ内で複数のショットを作成し、キャラクターやビジュアルスタイルを正確に維持することができます。

現行モデルには弱点があります。複雑なシーンの物理を正確にシミュレートするのに苦労することがあり、特定の因果関係のインスタンスを理解できないことがあります。たとえば、人がクッキーを一口食べるかもしれませんが、その後、クッキーには噛み跡がついていないかもしれません。

モデルは、例えば左右を混同したり、特定のカメラの軌跡を追うような時間の経過に関する正確な説明に苦労することがあります。

要約する
OpenAIがSoraというテキストからビデオを生成するモデルを発表。Soraは最大1分のビデオを生成し、複数のキャラクターや動き、詳細な背景を理解。言語理解も深く、感情豊かなキャラクターを生成。ただし、複雑なシーンの物理シミュレーションや因果関係の特定には苦労することも。