GenAI thúc đẩy giá trị kinh doanh thực sự đòi hỏi công việc thực sự. Nhưng nó xứng đáng.
Hình ảnh gốc được cung cấp bởi The Everett Collection trên Shutterstock. Hình ảnh được chỉnh sửa bởi tác giả.
GenAI hiện diện khắp mọi nơi bạn nhìn, và các tổ chức trong mọi ngành công nghiệp đang tạo áp lực cho nhóm của họ để tham gia cuộc đua — 77% nhà lãnh đạo kinh doanh lo sợ họ đã bỏ lỡ những lợi ích của GenAI.
Các nhóm dữ liệu đang vội vàng tìm cách đáp ứng yêu cầu. Nhưng việc xây dựng một mô hình trí tuệ nhân tạo sinh sản thực sự mang lại giá trị kinh doanh là khó khăn.
Và trong dài hạn, việc tích hợp nhanh chóng với OpenAI API không đủ. Đó là GenAI, nhưng nơi là hào cản? Tại sao người dùng nên chọn bạn thay vì ChatGPT?
Việc kiểm tra nhanh chóng ô vuông đó cảm giác như một bước tiến vững chắc, nhưng nếu bạn chưa nghĩ đến cách kết nối LLMs với dữ liệu độc quyền và ngữ cảnh kinh doanh của bạn để thực sự tạo ra giá trị khác biệt, bạn đang ở phía sau.
Điều đó không phải là thổi phồng. Chỉ trong tuần này, tôi đã nói chuyện với nửa chục nhà lãnh đạo dữ liệu chỉ về chủ đề này mà thôi. Điều này không bỏ qua bất kỳ ai trong số họ rằng đây là một cuộc đua. Ở đích đến sẽ có người chiến thắng và người thua. Như Blockbusters và Netflix.
Sự thật khó chịu #1: Các tính năng trí tuệ nhân tạo của bạn không được chấp nhận tốt và bạn chậm trong việc tạo ra lợi nhuận.
“Barr, nếu GenAI quan trọng đến vậy, tại sao các tính năng hiện tại mà chúng ta đã triển khai lại được áp dụng kém như vậy?”
Vâng, có một vài lý do. Một trong số đó, sáng kiến AI của bạn không được xây dựng như một phản ứng với sự tăng đột ngột của các vấn đề người dùng được xác định rõ ràng. Đối với hầu hết các nhóm dữ liệu, điều đó là vì bạn đang đua đẩy và đó là thời điểm sớm và bạn muốn có được một số kinh nghiệm.
Tuy nhiên, không lâu sau đó, người dùng của bạn sẽ gặp vấn đề mà GenAI giải quyết tốt nhất, và khi điều đó xảy ra — bạn sẽ có tỷ lệ sử dụng tốt hơn so với việc nhóm của bạn nghĩ cách kết nối GenAI với một trường hợp sử dụng.
Và bởi vì đây là sớm, các tính năng AI sinh sáng đã được tích hợp chỉ là 'ChatGPT nhưng ở đây'.
Hãy để tôi cho bạn một ví dụ. Hãy nghĩ về một ứng dụng năng suất mà bạn có thể sử dụng hàng ngày để chia sẻ kiến thức tổ chức. Một ứng dụng như vậy có thể cung cấp tính năng thực hiện các lệnh như “Tóm tắt điều này,” “Làm dài hơn” hoặc “Thay đổi ngữ điệu” trên các đoạn văn không cấu trúc. Một lệnh tương đương với một tín dụng trí tuệ nhân tạo.
Vâng, điều đó hữu ích, nhưng nó không phân biệt.
Có lẽ nhóm quyết định mua một số tín dụng trí tuệ nhân tạo, hoặc có lẽ họ chỉ đơn giản là click qua tab khác và hỏi ChatGPT. Tôi không muốn hoàn toàn bỏ qua hoặc coi thường lợi ích của việc không tiết lộ dữ liệu độc quyền cho ChatGPT, nhưng đó cũng chỉ là một giải pháp và tầm nhìn nhỏ hơn so với những gì được mô tả trong cuộc gọi kiếm lời trên khắp đất nước.
Bước trung gian phiền toái từ ý tưởng đến giá trị. Hình ảnh được cung cấp bởi Joe Reis trên Substack.
Vậy hãy xem xét: Điểm khác biệt và giá trị thêm của GenAI của bạn là gì? Để tôi cho bạn một gợi ý: dữ liệu độc quyền chất lượng cao.
Đó là lý do tại sao một mô hình RAG (hoặc đôi khi là một mô hình được điều chỉnh tinh chỉnh) rất quan trọng đối với các sáng kiến Gen AI. Nó cung cấp quyền truy cập vào dữ liệu độc quyền của doanh nghiệp đó cho LLM. Tôi sẽ giải thích lý do dưới đây.
Sự thật khó khăn #2: Bạn sợ làm nhiều hơn với Gen AI.
Đúng vậy: trí tuệ nhân tạo sinh sáng đang gây sợ hãi.
Dĩ nhiên, bạn có thể tích hợp mô hình trí tuệ nhân tạo của mình sâu hơn vào quy trình tổ chức của bạn, nhưng điều đó cảm giác rủi ro. Hãy đối mặt với sự thật: ChatGPT tạo ra ảo tưởng và không thể dự đoán được. Có một sự cắt đứt kiến thức khiến người dùng dễ bị ảnh hưởng bởi kết quả lỗi thời. Có hậu quả pháp lý đối với việc xử lý dữ liệu một cách không cẩn thận và cung cấp thông tin sai lệch cho người tiêu dùng, ngay cả khi là vô tình.
Nghe có vẻ thực đúng không? Llama 2 chắc chắn nghĩ vậy. Hình ảnh được cung cấp bởi Pinecone.
Sai sót dữ liệu của bạn có hậu quả. Và đó là lý do tại sao việc biết chính xác những gì bạn đang cung cấp cho GenAI và dữ liệu có đúng không rất quan trọng.
Trong một cuộc khảo sát ẩn danh survey mà chúng tôi gửi đến các nhà lãnh đạo dữ liệu, hỏi họ đội ngũ của họ còn cách xa đến đâu để triển khai một trường hợp sử dụng GenAI, một phản hồi là, “Tôi không nghĩ cơ sở hạ tầng của chúng tôi là điều đang làm chúng ta bị ràng buộc. Chúng tôi đang tiến hành rất thận trọng ở đây — với cảnh quan di chuyển nhanh chóng như vậy, và nguy cơ tổn thất danh tiếng từ một 'rogue' chatbot, chúng tôi đang chờ đợi vài chút để sự hào nhoáng giảm đi một chút!”
Đây là một quan điểm phổ biến được chia sẻ rộng rãi trong số nhiều nhà lãnh đạo dữ liệu mà tôi đã nói chuyện. Nếu nhóm dữ liệu đột ngột tiết lộ dữ liệu an toàn phục vụ khách hàng, họ sẽ phải chịu trách nhiệm. Quản lý dữ liệu là một yếu tố quan trọng và đó là một mục tiêu cao cần đạt được.
Đây là những rủi ro thực sự cần có giải pháp, nhưng bạn sẽ không giải quyết chúng bằng cách ngồi ở ngoài đường biên. Cũng có nguy cơ thực sự là bạn sẽ phải chứng kiến doanh nghiệp của mình bị ảnh hưởng cơ bản bởi nhóm người đã tìm ra giải pháp trước.
Việc điều chỉnh LLMs dựa trên dữ liệu độc quyền của bạn với việc điều chỉnh tinh chỉnh và RAG là một phần quan trọng của câu đố này, nhưng không dễ dàng...
Sự thật khó khăn #3: RAG khó khăn.
Tôi tin rằng RAG (tăng cường truy xuất và tạo ra) và điều chỉnh tinh chỉnh là trung tâm của tương lai của trí tuệ nhân tạo sinh sản doanh nghiệp. Nhưng mặc dù RAG là phương pháp đơn giản hơn trong hầu hết các trường hợp, việc phát triển ứng dụng RAG vẫn có thể phức tạp.
'Chúng ta có thể bắt đầu RAGing không? Có gì lớn lao đâu? Hình ảnh được cung cấp bởi Reddit.'
RAG có vẻ như là giải pháp rõ ràng cho việc tùy chỉnh LLM của bạn. Nhưng việc phát triển RAG đến với một đường cong học tập, ngay cả đối với các kỹ sư dữ liệu tài năng nhất của bạn. Họ cần phải biết về kỹ thuật kích thích, cơ sở dữ liệu vector và vector nhúng, mô hình dữ liệu, điều phối dữ liệu, đường ống dữ liệu... tất cả cho RAG. Và, vì nó mới (được giới thiệu bởi Meta AI vào năm 2020), nhiều công ty vẫn chưa có đủ kinh nghiệm với nó để thiết lập các phương pháp tốt nhất.
Kiến trúc ứng dụng RAG. Hình ảnh được cung cấp bởi Databricks._
Đây là một sự đơn giản hóa về kiến trúc ứng dụng RAG:
- Kiến trúc RAG kết hợp thông tin truy xuất với mô hình tạo văn bản, vì vậy nó có quyền truy cập vào cơ sở dữ liệu của bạn khi cố gắng trả lời một câu hỏi từ người dùng. 2. Cơ sở dữ liệu phải là một nguồn đáng tin cậy bao gồm dữ liệu độc quyền, và nó cho phép mô hình tích hợp thông tin cập nhật và đáng tin cậy vào các phản ứng và lý do của nó. 3. Ở nền tảng, một đường ống dữ liệu hấp thụ các nguồn có cấu trúc và không có cấu trúc khác nhau vào cơ sở dữ liệu để giữ cho nó chính xác và cập nhật. 4. Chuỗi RAG lấy truy vấn của người dùng (văn bản) và truy xuất dữ liệu liên quan từ cơ sở dữ liệu, sau đó chuyển dữ liệu đó và truy vấn đến LLM để tạo ra một phản ứng cực kỳ chính xác và cá nhân hóa.
Có rất nhiều sự phức tạp trong kiến trúc này, nhưng nó lại mang lại những lợi ích quan trọng:
- Nó cung cấp cơ sở dữ liệu chính xác cho LLM của bạn, từ đó làm cho nó trở nên có giá trị hơn nhiều. 2. Nó đưa mô hình của bạn đến dữ liệu của bạn thay vì đưa dữ liệu của bạn đến mô hình của bạn, đó là một phương pháp đơn giản, tiết kiệm chi phí.
Chúng ta có thể thấy điều này trở thành hiện thực trong ngăn xếp dữ liệu hiện đại. Các nhà cung cấp lớn đều đang làm việc với tốc độ nhanh chóng để làm cho RAG dễ dàng hơn bằng cách cung cấp LLMs trong môi trường của họ, nơi dữ liệu doanh nghiệp được lưu trữ.
Snowflake Cortex hiện giờ cho phép tổ chức phân tích dữ liệu và xây dựng ứng dụng trí tuệ nhân tạo trực tiếp trong Snowflake. Các Foundation Model APIs mới của Databricks cung cấp truy cập ngay lập tức vào LLMs trực tiếp trong Databricks. Microsoft đã phát hành Dịch vụ Microsoft Azure OpenAI Service và Amazon gần đây đã ra mắt Trình soạn thảo Truy vấn Amazon Redshift.
Dữ liệu đám mây Snowflake. Hình ảnh được cung cấp bởi Umesh Patel trên Medium.
Tôi tin rằng tất cả những tính năng này đều có cơ hội tốt để thúc đẩy việc áp dụng cao. Nhưng chúng cũng làm tăng sự chú ý đến chất lượng dữ liệu trong các kho dữ liệu này. Nếu dữ liệu cung cấp cho đường ống RAG của bạn là bất thường, lỗi thời, hoặc không đáng tin cậy, tương lai của sáng kiến AI tạo ra của bạn sẽ ra sao?
Sự thật khó chịu #4: Dữ liệu của bạn vẫn chưa sẵn sàng.
Hãy nhìn chằm chằm vào cơ sở hạ tầng dữ liệu của bạn. Có khả năng rằng nếu bạn có một đường ống RAG hoàn hảo, mô hình được điều chỉnh tốt và trường hợp sử dụng rõ ràng sẵn sàng để triển khai ngay mai (và điều đó sẽ thật tuyệt phải không?), bạn vẫn không có bộ dữ liệu sạch, được mô hình hóa tốt để kết nối tất cả vào đó.
Hãy nói rằng bạn muốn chatbot của bạn tương tác với khách hàng. Để làm bất cứ điều gì hữu ích, nó cần biết về mối quan hệ của tổ chức đó với khách hàng. Nếu bạn là một tổ chức doanh nghiệp ngày nay, mối quan hệ đó có thể được xác định qua 150 nguồn dữ liệu và 5 cơ sở dữ liệu riêng biệt... trong đó có 3 cơ sở dữ liệu vẫn đặt tại chỗ.
Nếu mô tả của bạn giống như vậy, có thể bạn cách đây một năm (hoặc hai!) mới hoàn tất cơ sở dữ liệu của mình để sẵn sàng cho Thế hệ Trí tuệ Nhân tạo.
Điều đó có nghĩa là nếu bạn muốn có tùy chọn để làm một cái gì đó với GenAI sớm một ngày nào đó, bạn cần phải tạo ra các bộ dữ liệu hữu ích, đáng tin cậy, được tổng hợp và được tài liệu hóa tốt trên một nền tảng dữ liệu hiện đại... ngay hôm qua. Hoặc huấn luyện viên sẽ gọi bạn vào trận đấu và quần của bạn sẽ bị hạ xuống.
Nhóm kỹ thuật dữ liệu của bạn là cột sống đảm bảo sức khỏe dữ liệu. Và, một ngăn xếp dữ liệu hiện đại cho phép nhóm kỹ thuật dữ liệu liên tục theo dõi chất lượng dữ liệu trong tương lai.
Sự thật khó chịu #5: Bạn đã đặt sang một bên những người chơi Gen AI quan trọng mà không hề hay biết.
Trí tuệ nhân tạo tạo ra là một môn thể thao đồng đội, đặc biệt là khi nói đến sự phát triển. Nhiều nhóm dữ liệu mắc sai lầm khi loại bỏ những người chơi chủ chốt khỏi đội hổ GenAI của họ, và điều đó đánh mất cho họ trong dài hạn.
Ai là người nên tham gia vào một nhóm AI? Lãnh đạo, hoặc một bên liên quan trực tiếp đến kinh doanh, để đầu mối sáng tạo và nhắc nhở nhóm về giá trị kinh doanh. Kỹ sư phần mềm để phát triển mã nguồn, ứng dụng giao diện người dùng và các cuộc gọi API. Nhà khoa học dữ liệu để xem xét các trường hợp sử dụng mới, điều chỉnh mô hình của bạn và thúc đẩy nhóm vào hướng mới. Ai đang thiếu ở đây?
Kỹ sư dữ liệu.
Các kỹ sư dữ liệu rất quan trọng đối với các sáng kiến GenAI. Họ sẽ có khả năng hiểu dữ liệu kinh doanh độc quyền cung cấp lợi thế cạnh tranh so với ChatGPT, và họ sẽ xây dựng các đường ống dữ liệu để làm cho dữ liệu đó có sẵn cho LLM qua RAG.
Nếu các kỹ sư dữ liệu của bạn không có mặt trong phòng, đội hổ của bạn sẽ không hoạt động ở sức mạnh đầy đủ. Các công ty tiên phong nhất trong lĩnh vực GenAI cho biết họ đã nhúng kỹ sư dữ liệu vào tất cả các đội phát triển.
Chiến thắng trong cuộc đua GenAI
Nếu bất kỳ sự thật khó khăn nào áp dụng cho bạn, đừng lo lắng. Trí tuệ nhân tạo sinh sản đang ở giai đoạn non trẻ đến mức vẫn còn thời gian để bắt đầu lại từ đầu, và lần này, đón nhận thách thức.
Hãy bước lùi để hiểu rõ nhu cầu của khách hàng mà mô hình trí tuệ nhân tạo có thể giải quyết, đưa kỹ sư dữ liệu vào giai đoạn phát triển sớm hơn để đảm bảo lợi thế cạnh tranh ngay từ đầu, và dành thời gian để xây dựng một đường ống RAG có thể cung cấp một luồng liên tục dữ liệu chất lượng cao, đáng tin cậy.
Và đầu tư vào một ngăn xếp dữ liệu hiện đại để đặt chất lượng dữ liệu là ưu tiên. Bởi vì trí tuệ nhân tạo sinh sáng mà không có dữ liệu chất lượng cao chỉ là một đống lông vũ.