ChatGPT hiện có thể nhìn thấy, nghe và nói | byAuthors

Chúng tôi đang bắt đầu triển khai khả năng mới về giọng nói và hình ảnh trong ChatGPT. Chúng cung cấp một loại giao diện mới, thông minh hơn bằng cách cho phép bạn có cuộc trò chuyện bằng giọng nói hoặc cho ChatGPT xem vấn đề bạn đang nói đến.

Giọng nói và hình ảnh mang đến cho bạn nhiều cách sử dụng ChatGPT trong cuộc sống của bạn. Chụp một bức ảnh của một địa danh khi đi du lịch và có một cuộc trò chuyện trực tiếp về những điều thú vị về nó. Khi bạn ở nhà, chụp hình tủ lạnh và tủ chứa thực phẩm để tìm ra bữa tối (và hỏi thêm câu hỏi để có công thức từng bước). Sau bữa tối, giúp con bạn giải một bài toán toán học bằng cách chụp ảnh, khoanh tròn bài toán và chia sẻ gợi ý với cả hai người.

Chúng tôi sẽ triển khai tính năng giọng nói và hình ảnh trong ChatGPT cho người dùng Plus và Doanh nghiệp trong vòng hai tuần tới. Giọng nói sẽ được hỗ trợ trên iOS và Android (chọn tham gia trong cài đặt của bạn) và hình ảnh sẽ có sẵn trên tất cả các nền tảng.

Nói chuyện với ChatGPT và để nó trả lời

Bây giờ bạn có thể sử dụng giọng nói để tham gia vào một cuộc trò chuyện qua lại với trợ lý của bạn. Nói chuyện với nó khi bạn đang di chuyển, yêu cầu một câu chuyện trước khi đi ngủ cho gia đình bạn, hoặc giải quyết một cuộc tranh luận trên bàn ăn tối.

Sử dụng giọng nói để tham gia vào một cuộc trò chuyện qua lại với trợ lý của bạn.

Để bắt đầu sử dụng giọng nói, hãy vào Cài đặt → Tính năng mới trên ứng dụng di động và chọn tham gia cuộc trò chuyện bằng giọng nói. Sau đó, nhấn vào nút tai nghe ở góc trên bên phải của màn hình chính và chọn giọng nói ưa thích từ năm giọng khác nhau.

Khả năng giọng nói mới được cung cấp bởi một mô hình văn bản thành giọng nói mới, có khả năng tạo ra âm thanh giống con người từ chỉ văn bản và vài giây mẫu giọng nói. Chúng tôi đã hợp tác với các diễn viên lồng tiếng chuyên nghiệp để tạo ra mỗi giọng nói. Chúng tôi cũng sử dụng Whisper, hệ thống nhận dạng giọng nói mã nguồn mở của chúng tôi, để chuyển văn bản từ lời nói của bạn.

Nghe mẫu giọng

Chọn văn bản

Một lần trong một khu rừng yên bình, có một bà mèo mập mạp tên là Lila. Một ngày nắng, bà ôm con mèo con nghịch ngợm của mình, Milo, dưới bóng mát của một cây sồi cổ thụ.

“Milo,” Lila bắt đầu, giọng nói nhẹ nhàng, “sắp có một bạn chơi mới rồi đấy.”

Đôi tai của Milo nhấc lên, tò mò. “Một bạn chơi mới à?”

Lila rên rỉ, “Vâng, một em gái nhỏ.”

Đôi mắt của Milo mở to với sự hồi hộp. “Một em gái? Liệu em ấy có đuổi đuôi như tôi không?”

Lila cười, “Ồ, em ấy sẽ có những thói quen riêng của mình. Anh sẽ dạy em, phải không?”

Milo gật đầu hăng hái, đã mơ tưởng về những cuộc phiêu lưu mà họ sẽ chia sẻ.

Chọn giọng

Trò chuyện về hình ảnh

Bây giờ bạn có thể hiển thị cho ChatGPT một hoặc nhiều hình ảnh. Sửa chữa lý do tại sao lò nướng của bạn không khởi động, khám phá nội dung trong tủ lạnh để lập kế hoạch bữa ăn, hoặc phân tích một biểu đồ phức tạp cho dữ liệu liên quan đến công việc. Để tập trung vào một phần cụ thể của hình ảnh, bạn có thể sử dụng công cụ vẽ trong ứng dụng di động của chúng tôi.

Hiển thị ChatGPT một hoặc nhiều hình ảnh.

Để bắt đầu, nhấn nút ảnh để chụp hoặc chọn một hình ảnh. Nếu bạn đang sử dụng iOS hoặc Android, hãy nhấn nút cộng trước tiên. Bạn cũng có thể thảo luận về nhiều hình ảnh hoặc sử dụng công cụ vẽ của chúng tôi để hướng dẫn trợ lý của bạn.

Hiểu hình ảnh được cung cấp bởi multimodal GPT-3.5 và GPT-4. Các mô hình này áp dụng kỹ năng lý luận ngôn ngữ của họ vào một loạt hình ảnh, chẳng hạn như ảnh chụp, ảnh chụp màn hình và tài liệu chứa cả văn bản và hình ảnh.

Chúng tôi đang triển khai khả năng hình ảnh và giọng nói một cách dần dần

Mục tiêu của OpenAI là xây dựng AGI an toàn và có ích. Chúng tôi tin rằng việc làm cho các công cụ của chúng tôi dần dần trở nên có sẵn sàng, cho phép chúng tôi cải thiện và hoàn thiện các biện pháp giảm thiểu rủi ro theo thời gian, đồng thời chuẩn bị cho mọi người với các hệ thống mạnh mẽ hơn trong tương lai. Chiến lược này trở nên càng quan trọng hơn với các mô hình tiên tiến liên quan đến giọng nói và thị giác.

Giọng điệu

Công nghệ giọng nói mới - có khả năng tạo ra những giọng nói tổng hợp thực tế từ chỉ vài giây của giọng nói thực sự - mở ra cánh cửa cho nhiều ứng dụng sáng tạo và tập trung vào tính sẵn có. Tuy nhiên, những khả năng này cũng mang đến những rủi ro mới, như khả năng cho các đối tượng xấu giả mạo nhân vật công cộng hoặc phạm tội lừa đảo.

Đây là lý do tại sao chúng tôi đang sử dụng công nghệ này để cung cấp một trường hợp sử dụng cụ thể - trò chuyện bằng giọng nói. Trò chuyện bằng giọng nói được tạo ra với các diễn viên lồng tiếng mà chúng tôi đã làm việc trực tiếp. Chúng tôi cũng đang hợp tác theo cách tương tự với những người khác. Ví dụ, Spotify đang sử dụng sức mạnh của công nghệ này cho phiên bản thử nghiệm của tính năng Dịch Giọng Nói, giúp các người làm podcast mở rộng phạm vi kể chuyện của họ bằng cách dịch podcast sang các ngôn ngữ bổ sung bằng giọng nói của người làm podcast.

Đầu vào hình ảnh

Mô hình dựa trên tầm nhìn cũng đặt ra những thách thức mới, từ việc tưởng tượng về con người đến việc phụ thuộc vào việc mô hình diễn giải hình ảnh trong các lĩnh vực quan trọng. Trước khi triển khai rộng rãi, chúng tôi đã kiểm tra mô hình với nhóm red teamers để đánh giá rủi ro trong các lĩnh vực như cực đoan và năng lực khoa học, cũng như một tập hợp đa dạng các người thử nghiệm alpha. Nghiên cứu của chúng tôi đã giúp chúng tôi đi đến một số chi tiết quan trọng để sử dụng một cách có trách nhiệm.