Sora: Criando vídeo a partir de texto

Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real.

Apresentando Sora, nosso modelo de texto para vídeo. Sora pode gerar vídeos de até um minuto de duração mantendo a qualidade visual e aderência à solicitação do usuário.

Hoje, Sora está se tornando disponível para os red teamers avaliarem áreas críticas de danos ou riscos. Também estamos concedendo acesso a um número de artistas visuais, designers e cineastas para obter feedback sobre como avançar o modelo para ser mais útil para profissionais criativos.

Estamos compartilhando nosso progresso de pesquisa antecipadamente para começar a trabalhar com e obter feedback de pessoas fora da OpenAI e para dar ao público uma ideia das capacidades de IA que estão surgindo.

Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do sujeito e do fundo. O modelo compreende não apenas o que o usuário pediu na solicitação, mas também como essas coisas existem no mundo físico.

O modelo tem um profundo entendimento da linguagem, permitindo-lhe interpretar com precisão as instruções e gerar personagens cativantes que expressam emoções vibrantes. Sora também pode criar várias cenas dentro de um único vídeo gerado que mantêm com precisão os personagens e o estilo visual.

O modelo atual tem fraquezas. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não entender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter uma marca de mordida.

O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldade com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica da câmera.