ChatGPT agora pode ver, ouvir e falar

contente

Estamos começando a implementar novas capacidades de voz e imagem no ChatGPT. Elas oferecem um tipo de interface mais intuitivo, permitindo que você tenha uma conversa por voz ou mostre ao ChatGPT sobre o que está falando.

Voz e imagem oferecem mais maneiras de usar o ChatGPT em sua vida. Tire uma foto de um ponto turístico enquanto viaja e tenha uma conversa ao vivo sobre o que há de interessante nele. Quando estiver em casa, tire fotos da geladeira e despensa para descobrir o que fazer para o jantar (e faça perguntas adicionais para obter uma receita passo a passo). Após o jantar, ajude seu filho com um problema de matemática tirando uma foto, circulando o conjunto de problemas e compartilhando dicas com ambos.

Estamos lançando voz e imagens no ChatGPT para usuários Plus e Enterprise ao longo das próximas duas semanas. A voz estará disponível no iOS e Android (opção disponível em suas configurações) e as imagens estarão disponíveis em todas as plataformas.

Fale com o ChatGPT e faça-o responder

Agora você pode usar a voz para participar de uma conversa de ida e volta com seu assistente. Fale com ele enquanto estiver em movimento, peça uma história para contar antes de dormir para sua família ou resolva um debate à mesa de jantar.

Use a voz para participar de uma conversa de ida e volta com o seu assistente.

Para começar com a voz, vá para Configurações → Novos Recursos no aplicativo móvel e opte por conversas por voz. Em seguida, toque no botão de fone de ouvido localizado no canto superior direito da tela inicial e escolha sua voz preferida entre cinco vozes diferentes.

A nova capacidade de voz é alimentada por um novo modelo de texto para fala, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de amostra de fala. Colaboramos com atores de voz profissionais para criar cada uma das vozes. Também usamos o Whisper, nosso sistema de reconhecimento de fala de código aberto, para transcrever suas palavras faladas em texto.

Resumir
A ChatGPT está lançando novas capacidades de voz e imagem, oferecendo uma interface mais intuitiva para conversas por voz e compartilhamento de imagens. Os usuários poderão tirar fotos de pontos turísticos, consultar sobre o que é interessante, planejar refeições a partir do conteúdo da geladeira, e até mesmo ajudar as crianças com problemas de matemática. As capacidades de voz e imagem serão disponibilizadas gradualmente para usuários Plus e Enterprise ao longo das próximas duas semanas. A tecnologia de voz é alimentada por um novo modelo de texto para fala, enquanto a compreensão de imagens é realizada por meio dos modelos multimodais GPT-3.5 e GPT-4. A abordagem gradual visa aprimorar as ferramentas e mitigar riscos, especialmente no que diz respeito a modelos avançados envolvendo voz e visão. A transparência sobre as limitações do modelo e a colaboração com organizações como Be My Eyes são aspectos importantes para garantir o uso responsável das novas capacidades.