Sora: Tạo video từ văn bản

Chúng tôi đang dạy trí tuệ nhân tạo hiểu và mô phỏng thế giới vật lý trong chuyển động, với mục tiêu huấn luyện các mô hình giúp con người giải quyết các vấn đề đòi hỏi tương tác trong thế giới thực.

Giới thiệu Sora, mô hình chuyển văn bản thành video của chúng tôi. Sora có thể tạo ra các video có độ dài lên đến một phút trong khi duy trì chất lượng hình ảnh và tuân thủ theo yêu cầu của người dùng.

Hôm nay, Sora đang trở nên có sẵn cho nhóm red teamers để đánh giá các lĩnh vực quan trọng về hại hoặc rủi ro. Chúng tôi cũng đang cấp quyền truy cập cho một số nghệ sĩ hình ảnh, nhà thiết kế và nhà làm phim để nhận phản hồi về cách tiến bộ của mô hình để hữu ích nhất cho các chuyên gia sáng tạo.

Chúng tôi chia sẻ tiến triển nghiên cứu sớm để bắt đầu làm việc với và nhận phản hồi từ những người ngoài OpenAI và để cung cấp cho công chúng cái nhìn về những khả năng trí tuệ nhân tạo sắp tới.

Sora có khả năng tạo ra các cảnh phức tạp với nhiều nhân vật, các loại chuyển động cụ thể và chi tiết chính xác về chủ đề và nền tảng. Mô hình không chỉ hiểu những gì người dùng đã yêu cầu trong câu hướng dẫn, mà còn hiểu cách những điều đó tồn tại trong thế giới vật lý.

Mô hình này hiểu sâu về ngôn ngữ, giúp nó diễn giải các yêu cầu một cách chính xác và tạo ra những nhân vật hấp dẫn biểu hiện cảm xúc sôi động. Sora cũng có thể tạo ra nhiều cảnh trong một video được tạo ra một cách chính xác, bao gồm nhân vật và phong cách hình ảnh.

Mô hình hiện tại có nhược điểm. Nó có thể gặp khó khăn trong việc mô phỏng chính xác vật lý của một cảnh phức tạp, và có thể không hiểu rõ về các trường hợp cụ thể của nguyên nhân và kết quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó, bánh quy có thể không có dấu vết cắn.

Mô hình cũng có thể gây nhầm lẫn về chi tiết không gian của một yêu cầu, ví dụ như lẫn lộn phải và trái, và có thể gặp khó khăn trong việc mô tả chính xác các sự kiện diễn ra theo thời gian, như theo dõi một quỹ đạo camera cụ thể.