ChatGPT peut maintenant voir, entendre et parler

Nous commençons à déployer de nouvelles fonctionnalités vocales et d'image dans ChatGPT. Elles offrent un type d'interface plus intuitif en vous permettant d'avoir une conversation vocale ou de montrer à ChatGPT de quoi vous parlez.

La voix et l'image vous offrent plus de façons d'utiliser ChatGPT dans votre vie. Prenez une photo d'un monument en voyage et engagez une conversation en direct sur ce qui est intéressant à ce sujet. Lorsque vous êtes chez vous, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions de suivi pour une recette étape par étape). Après le dîner, aidez votre enfant avec un problème de mathématiques en prenant une photo, en entourant le problème et en partageant des indices avec vous deux.

Nous déployons la voix et les images dans ChatGPT pour les utilisateurs Plus et Enterprise au cours des deux prochaines semaines. La voix sera disponible sur iOS et Android (opt-in dans vos paramètres) et les images seront disponibles sur toutes les plateformes.

Parlez avec ChatGPT et faites-le répondre

Vous pouvez maintenant utiliser la voix pour engager une conversation interactive avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour l'heure du coucher de votre famille, ou résolvez un débat à table.

Utilisez la voix pour engager une conversation interactive avec votre assistant.

Pour commencer avec la voix, rendez-vous dans Paramètres → Nouvelles fonctionnalités sur l'application mobile et optez pour les conversations vocales. Ensuite, appuyez sur le bouton casque situé dans le coin supérieur droit de l'écran d'accueil et choisissez votre voix préférée parmi cinq voix différentes.

La nouvelle fonctionnalité vocale est alimentée par un nouveau modèle de synthèse vocale capable de générer un audio semblable à celui d'un être humain à partir de simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs de voix professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open source, pour transcrire vos paroles en texte.

Écoutez des échantillons vocaux

Sélectionner le texte

Une fois dans une forêt tranquille, il y avait une maman chat duveteuse nommée Lila. Un jour ensoleillé, elle câlina son chaton joueur, Milo, à l'ombre d'un vieux chêne.

"Milo," commença Lila, sa voix douce et gentille, "tu vas bientôt avoir un nouveau compagnon de jeu."

Les oreilles de Milo se dressèrent, curieuses. "Un nouveau compagnon de jeu?"

Lila ronronna, "Oui, une petite sœur."

Les yeux de Milo s'élargirent d'excitation. "Une sœur? Est-ce qu'elle pourchassera les queues comme moi?"

Lila rit doucement. "Oh, elle aura ses propres manies. Tu lui apprendras, n'est-ce pas?"

Milo hocha la tête avec enthousiasme, rêvant déjà des aventures qu'ils partageraient.

Sélectionner la voix

Discuter des images

Vous pouvez maintenant montrer à ChatGPT une ou plusieurs images. Dépannez pourquoi votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail. Pour vous concentrer sur une partie spécifique de l'image, vous pouvez utiliser l'outil de dessin dans notre application mobile.

Afficher une ou plusieurs images de ChatGPT.

Pour commencer, appuyez sur le bouton photo pour capturer ou choisir une image. Si vous êtes sur iOS ou Android, appuyez d'abord sur le bouton plus. Vous pouvez également discuter de plusieurs images ou utiliser notre outil de dessin pour guider votre assistant.

La compréhension des images est alimentée par GPT-3.5 multimodal et GPT-4. Ces modèles appliquent leurs compétences en raisonnement linguistique à un large éventail d'images, telles que des photographies, des captures d'écran et des documents contenant à la fois du texte et des images.

Nous déployons progressivement des capacités d'image et de voix

L'objectif d'OpenAI est de construire une AGI qui soit sûre et bénéfique. Nous croyons en rendant nos outils disponibles progressivement, ce qui nous permet d'apporter des améliorations et de peaufiner les mesures d'atténuation des risques au fil du temps, tout en préparant tout le monde à des systèmes plus puissants à l'avenir. Cette stratégie devient encore plus importante avec des modèles avancés impliquant la voix et la vision.

Voix

La nouvelle technologie vocale, capable de créer des voix synthétiques réalistes à partir de quelques secondes de discours réel, ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité. Cependant, ces capacités présentent également de nouveaux risques, tels que la possibilité pour des acteurs malveillants d'usurper l'identité de personnalités publiques ou de commettre des fraudes.

C'est pourquoi nous utilisons cette technologie pour alimenter un cas d'utilisation spécifique : le chat vocal. Le chat vocal a été créé avec des acteurs de voix avec lesquels nous avons directement travaillé. Nous collaborons également de manière similaire avec d'autres. Par exemple, Spotify utilise la puissance de cette technologie pour le pilote de leur fonctionnalité de traduction vocale, qui aide les podcasteurs à étendre la portée de leur narration en traduisant des podcasts dans des langues supplémentaires avec les voix mêmes des podcasteurs.

Parlez avec ChatGPT et faites-le répondre

Écoutez des échantillons vocaux

Discuter des images

Nous déployons progressivement des capacités d'image et de voix

Voix

Entrée d'image