ChatGPTは今、見ること、聞くこと、話すことができます

コンテンツ

ChatGPTで新しい音声および画像機能の展開を開始しています。これにより、音声会話を行ったり、話している内容をChatGPTに表示したりすることができ、新しい直感的なインターフェースを提供します。

音声と画像は、ChatGPTを生活の中でさらに多くの方法で使用できるようにします。旅行中にランドマークの写真を撮影し、それについて興味深いことについてリアルタイムで会話をすることができます。家にいるときは、冷蔵庫やパントリーの写真を撮って、夕食に何があるかを調べます(そしてステップバイステップのレシピに関する質問をして、フォローアップの質問をします)。夕食後は、子供が数学の問題を手伝うために写真を撮り、問題を囲んで、ヒントを共有します。

ChatGPTでは、次の2週間でPlusおよびEnterpriseユーザー向けに音声と画像を導入していきます。音声はiOSおよびAndroidで利用可能になります(設定でオプトインが必要)、画像はすべてのプラットフォームで利用可能になります。

ChatGPTと話して、返事をもらう

アシスタントとの往復会話に音声を使用できるようになりました。移動中に話しかけたり、家族のために寝る前のお話をリクエストしたり、食卓の議論を解決したりできます。

アシスタントとのやりとりを音声で行いましょう。

ボイスを始めるには、モバイルアプリの設定→新機能に移動し、ボイス会話に参加するように選択します。その後、ホーム画面の右上にあるヘッドフォンボタンをタップし、5つの異なる声から好きな声を選択します。

新しい音声機能は、新しいテキスト読み上げモデルによって提供され、わずかなテキストと数秒の音声サンプルから人間らしい音声を生成することができます。私たちはプロの声優と協力して各声を作成しました。また、Whisperというオープンソースの音声認識システムを使用して、話された言葉をテキストに転写します。

音声サンプルを聴く

テキストを選択

かつて静かな森の中に、リラというふわふわのママ猫がいました。ある晴れた日、彼女は古いオークの木の陰で、遊び好きな子猫のミロと一緒に寄り添っていました。

「ミロ、」リラは優しく柔らかい声で言いました。「もうすぐ新しい遊び仲間ができるわ。」

ミロは興味津々で耳を立てました。「新しい遊び仲間?」

リラはプルプルと喉を鳴らしました。「そう、妹ができるの。」

ミロは興奮して目を丸くしました。「妹?僕と同じように尾を追いかけるのかな?」

リラは笑いました。「ああ、彼女には彼女なりの癖があるわ。君が教えてあげるんだね?」

ミロは熱心にうなずき、すでに彼らが共有する冒険の夢を見ていました。

Select voice

画像についてのチャット

ChatGPTに1枚以上の画像を表示できるようになりました。グリルが起動しない原因を調査したり、冷蔵庫の中身を調べて食事の計画を立てたり、仕事関連のデータの複雑なグラフを分析したりすることができます。画像の特定の部分に焦点を当てるためには、モバイルアプリの描画ツールを使用できます。

ChatGPTに1つ以上の画像を表示します。

始めるには、写真ボタンをタップして画像をキャプチャするか選択します。iOSまたはAndroidをご利用の場合は、まずプラスボタンをタップしてください。複数の画像をディスカッションしたり、描画ツールを使用してアシスタントをガイドすることもできます。

画像理解は、マルチモーダルなGPT-3.5とGPT-4によって支えられています。これらのモデルは、写真、スクリーンショット、テキストと画像の両方を含むドキュメントなど、さまざまな種類の画像に言語推論スキルを適用します。

要約する
ChatGPTが新しい音声と画像の機能を導入しました。これにより、音声会話や画像の表示が可能になり、旅行中の名所の写真を撮って興味深い点についてリアルタイムで会話したり、冷蔵庫やパントリーの中身を撮影して夕食のメニューを考えたりすることができます。音声はiOSとAndroidで利用可能で、画像はすべてのプラットフォームで利用可能です。音声は新しいテキスト読み上げモデルによって提供され、画像理解は多面的なGPT-3.5とGPT-4によって提供されます。安全かつ有益なAGIの構築を目指し、機能の展開を段階的に行っています。