Sora: Criando vídeo a partir de texto

contente

Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real.

Apresentando Sora, nosso modelo de texto para vídeo. Sora pode gerar vídeos de até um minuto de duração mantendo a qualidade visual e aderência à solicitação do usuário.

Hoje, Sora está se tornando disponível para os red teamers avaliarem áreas críticas de danos ou riscos. Também estamos concedendo acesso a um número de artistas visuais, designers e cineastas para obter feedback sobre como avançar o modelo para ser mais útil para profissionais criativos.

Estamos compartilhando nosso progresso de pesquisa antecipadamente para começar a trabalhar com e obter feedback de pessoas fora da OpenAI e para dar ao público uma ideia das capacidades de IA que estão surgindo.

Sora é capaz de gerar cenas complexas com vários personagens, tipos específicos de movimento e detalhes precisos do sujeito e do fundo. O modelo compreende não apenas o que o usuário pediu na solicitação, mas também como essas coisas existem no mundo físico.

O modelo tem um profundo entendimento da linguagem, permitindo-lhe interpretar com precisão as instruções e gerar personagens cativantes que expressam emoções vibrantes. Sora também pode criar várias cenas dentro de um único vídeo gerado que mantêm com precisão os personagens e o estilo visual.

O modelo atual tem fraquezas. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não entender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter uma marca de mordida.

O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldade com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica da câmera.

Resumir
A OpenAI está desenvolvendo o Sora, um modelo de texto para vídeo que pode gerar vídeos de até um minuto, mantendo qualidade visual e aderência à solicitação do usuário. O Sora está disponível para red teamers avaliarem áreas críticas de riscos, e para artistas visuais, designers e cineastas fornecerem feedback. O modelo pode gerar cenas complexas com múltiplos personagens e movimentos específicos, mas tem dificuldades em simular fisicamente cenas complexas e entender causas e efeitos específicos. A OpenAI compartilha o progresso da pesquisa para colaboração e feedback, e destaca que o modelo tem uma compreensão profunda da linguagem e pode criar personagens expressivos e múltiplos planos em um vídeo gerado.