Sora: 텍스트에서 비디오 만들기

우리는 AI에게 움직이는 물리 세계를 이해하고 모방하도록 가르치고 있으며, 실제 상호 작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 훈련하는 것을 목표로 하고 있습니다.

Sora를 소개합니다. Sora는 시각적 품질과 사용자의 지시에 따른 동영상을 유지하면서 최대 1분까지의 동영상을 생성할 수 있습니다.

오늘, Sora는 중요한 영역을 평가하기 위해 레드 팀에게 이용 가능해집니다. 또한 시각 예술가, 디자이너 및 영화 제작자들에게 모델을 창의적 전문가들에게 가장 유용하도록 발전시키는 데 도움이 되는 피드백을 얻기 위한 접근 권한을 부여하고 있습니다.

우리는 연구 진행 상황을 일찍 공유하여 OpenAI 외부의 사람들과 협력하고 피드백을 받으며, 미래의 AI 능력에 대한 대중의 감을 전하고자 합니다.

Sora는 여러 캐릭터가 등장하는 복잡한 장면, 특정 유형의 동작, 그리고 대상과 배경의 정확한 세부 사항을 생성할 수 있습니다. 이 모델은 프롬프트에서 사용자가 요청한 것 뿐만 아니라 그러한 것들이 물리적 세계에서 어떻게 존재하는지도 이해합니다.

모델은 언어에 대한 심층적인 이해를 갖고 있어서 정확하게 프롬프트를 해석하고 생동감 넘치는 감정을 표현하는 매력적인 캐릭터를 생성할 수 있습니다. Sora는 또한 단일 생성된 비디오 내에서 캐릭터와 시각적 스타일을 정확하게 유지하는 여러 장면을 만들어낼 수 있습니다.

현재 모델에는 약점이 있습니다. 복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움을 겪을 수 있으며, 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다. 예를 들어, 사람이 쿠키를 한 입 베어 먹을 수 있지만, 그 후에 쿠키에는 베어 먹은 흔적이 없을 수 있습니다.

모델은 프롬프트의 공간적 세부 사항을 혼동할 수도 있으며, 예를 들어 왼쪽과 오른쪽을 혼동할 수 있으며, 특정 카메라 궤적을 따르는 시간이 지남에 따른 사건에 대한 정확한 설명에 어려움을 겪을 수 있습니다.