科技領袖應知的5個生成式人工智慧的殘酷真相

內容

驅動真實商業價值的GenAI需要真正的努力。但這是值得的。

Barr MosesTowards Data Science

原始圖像由The Everett CollectionShutterstock提供。圖像由作者編輯。

GenAI 無處不在,各行各業的組織都在向他們的團隊施加壓力,要求他們加入這場競賽 — 77% 的商業領袖 擔心他們已經錯過了 GenAI 的好處。

數據團隊正在奮力回應這個需求。但建立一個真正能夠創造商業價值的生成式人工智能模型是非常困難的。

從長遠來看,與OpenAI API 快速整合並不足夠。這是 GenAI,但是競爭優勢在哪裡?為什麼使用者會選擇你而不是 ChatGPT?

快速勾選方塊似乎是向前邁出的一步,但如果你還沒有考慮如何將LLM與你的專有數據和業務背景相連接,以實際推動差異化價值,那你就已經落後了。

這並非誇張。就在這個話題上,這個星期我已經和半打數據領袖交談過了。他們都清楚地意識到這是一場競賽。在終點線上,將會有贏家和輸家。就像有 Blockbuster 和 Netflix 一樣。

如果你覺得起跑槍已經響了,但你的團隊還在起跑線上伸展身體,聊著「泡泡」和「炒作」,我整理了5個殘酷的真相,幫助你擺脫自滿。

艱辛的真相#1:您的生成式人工智能功能尚未得到廣泛採用,且您的盈利速度較慢。

Barr,如果 GenAI 如此重要,為什麼我們目前實施的功能被採納得如此不好呢?

首先,有幾個原因。首先,您的人工智慧計劃並非是為了應對明確的用戶問題激增而建立的。對於大多數數據團隊來說,這是因為您在趕時間,現在還很早,您想要積累一些經驗。

然而,您的用戶很快就會遇到一個最適合由GenAI解決的問題,當這種情況發生時,與您的虎隊團隊討論將GenAI與使用案例聯繫起來相比,您將會有更好的採用情況。

而且由於現在還很早,已經整合的生成式人工智慧功能就只是“ChatGPT 在這裡而已。”

讓我舉個例子。想想你可能每天都會使用的一個提高工作效率的應用程式,用來分享組織知識。這樣的應用程式可能提供一個功能,可以對非結構化文本區塊執行命令,例如“總結這個”、“延長長度”或“改變語氣”。一個命令等於一個人工智慧學分。

是的,那很有幫助,但它並不具有差異性

也許團隊決定購買一些AI積分,或者他們只是簡單地點擊其他選項卡並詢問ChatGPT。我不想完全忽視或低估不將專有數據暴露給ChatGPT的好處,但這也比全國各地的盈利電話中所描繪的解決方案和願景要小。

從概念到價值的煩人中間步驟。圖片由 Joe Reis on Substack.

所以請考慮:你的GenAI獨特之處和附加價值是什麼?讓我給你一個提示:高質量的專有數據。

這就是為什麼 RAG 模型(有時候也叫做精調模型)對於 Gen AI 倡議如此重要。它讓 LLM 可以存取企業的專有數據。我將在下面解釋原因。

艱難真相#2:你害怕讓Gen AI做更多。

這是真的:生成式人工智能令人感到害怕。

當然,您可以將您的人工智能模型更深入地整合到您組織的流程中,但這似乎存在風險。讓我們面對現實:ChatGPT 會產生幻覺,並且無法預測。存在一個知識截止點,使用戶容易受到過時輸出的影響。數據處理不當和提供消費者錯誤信息都會產生法律後果,即使是意外的。

聽起來很真實,對吧?Llama 2肯定是這樣認為的。圖片由Pinecone提供。

你的數據錯誤會產生後果。這就是為什麼了解你向 GenAI 提供的數據內容以及確保數據準確性至關重要。

在我們發送給數據領導者的匿名調查中,詢問他們的團隊離實現 GenAI 應用案例還有多遠,其中一個回答是:“我認為我們的基礎設施並不是阻礙我們的事情。我們在這裡走得相當謹慎 — 隨著行業發展如此迅速,以及從‘流氓’聊天機器人可能帶來的聲譽損害風險,我們正在觀望,等待炒作稍微平息一些!”

這是我與許多數據領導者交談時廣泛共享的情緒。如果數據團隊突然提出了與客戶相關的安全數據,那麼他們就有責任。數據治理是一個重要考慮因素,這是一個高標準要達到的目標。

這些是真正需要解決的風險,但你不會坐在一旁就解決它們。同時,還存在著真正的風險,即看著你的業務被率先找到解決方案的團隊徹底顛覆。

在您的專有數據中進行微調和RAG,是解決這個難題的重要一環,但並不容易...

艱辛的真相#3:RAG 很難。

我相信 RAG(檢索增強生成)和微調將是未來企業生成式人工智能的核心。但儘管在大多數情況下 RAG 是較簡單的方法,開發 RAG 應用仍然可能很複雜。

我們難道不能開始進行 RAGing 嗎? 有什麼大不了的? 圖片來源:Reddit._

RAG 可能看起來是自定義 LLM 的明顯解決方案。但是 RAG 的開發需要一定的學習曲線,即使對於您最有才華的數據工程師也是如此。他們需要了解 prompt engineering、向量數據庫和嵌入向量、數據建模、數據管控、數據管道...所有這些都是為了 RAG。而且,由於它是新的(由 Meta AI 在 2020 年推出),許多公司對它還沒有足夠的經驗來建立最佳實踐。

RAG 應用架構。圖片由 Databricks.

這裡放翻譯好的文字:這裡是 RAG 應用架構的過度簡化說明:

  1. RAG 架構結合了資訊檢索和文本生成模型,因此在嘗試回答用戶問題時可以訪問您的數據庫。
  2. 數據庫必須是一個可信的來源,其中包含專有數據,並允許模型將最新可靠的信息納入其回答和推理中。
  3. 在背景中,數據管道將各種結構化和非結構化來源輸入數據庫,以保持其準確和最新。
  4. RAG 鏈接接收用戶查詢(文本),從數據庫檢索相關數據,然後將該數據和查詢傳遞給 LLM,以生成高度準確和個性化的回應。

這個架構非常複雜,但它確實具有重要的好處:

  1. 它以準確的專有數據為基礎,使您的 LLM 變得更有價值。 2. 它將您的模型帶到您的數據,而不是將數據帶到您的模型,這是一種相對簡單、成本效益的方法。

我們可以看到這在現代數據堆棧中變得更加真實。最大的參與者正以飛快的速度努力,通過在其環境中提供LLM來使RAG變得更加容易,而企業數據就存儲在這些環境中。

Snowflake Cortex 現在使組織能夠快速分析數據並直接在 Snowflake 中構建 AI 應用程式。Databricks 的新 Foundation Model APIs 可以在 Databricks 內直接獲取 LLMs。Microsoft 發布了 Microsoft Azure OpenAI Service,而亞馬遜最近推出了 Amazon Redshift Query Editor

Snowflake data cloud. Image courtesy of Umesh Patel on Medium.

我相信所有這些功能都有很大的可能性推動高採用率。但是,它們也加強了對這些數據存儲的數據質量的關注。如果餵養您的RAG管道的數據是異常的、過時的或者不可信的,您的生成式人工智能計劃的未來會怎樣?

艱辛真相#4:你的數據還沒準備好。

仔細檢視您的數據基礎設施。很可能,即使您擁有完美的 RAG pipeline、調校良好的模型和清晰的用例準備好明天就投入使用(這該有多好?),您仍然無法獲得乾淨、良好建模的數據集來接駁所有這些。

假設您希望您的聊天機器人與客戶進行交互。為了做任何有用的事情,它需要了解組織與客戶的關係。如果您是當今的企業組織,這種關係可能跨越150個數據來源和5個獨立的數據庫...其中3個仍然在本地。

如果這描述了您的組織,您可能還需要一年(甚至兩年!)才能使您的數據基礎設施達到 GenAI 的標準。

這意味著,如果您希望有一天能夠選擇與 GenAI 進行某些操作,您需要在現代數據平台上創建有用、高度可靠、整合且有良好文件記錄的數據集...而且是昨天就要做好。否則教練會叫您上場,而您卻措手不及。

您的數據工程團隊是確保數據健康的支柱。而現代數據堆棧使數據工程團隊能夠持續監控數據質量,以應對未來的挑戰。

艱辛的真相#5:你在不知不覺中擱置了關鍵的 Gen AI 參與者。

生成式人工智慧是一項團隊運動,特別是在開發方面。許多數據團隊犯了排除關鍵成員不參與生成式人工智慧團隊的錯誤,這將在長遠造成損失。

誰應該參與 AI 小組?領導層或主要業務利益相關者,以推動這個倡議並提醒小組業務價值。軟體工程師負責開發程式碼、用戶界面應用和 API 呼叫。數據科學家負責考慮新的使用案例,微調模型,並推動團隊朝新方向發展。這裡缺少了誰?

數據工程師。

數據工程師對於 GenAI 倡議至關重要。他們將能夠理解提供與 ChatGPT 相比的競爭優勢的專有業務數據,並且將建立使該數據通過 RAG 可供 LLM 使用的管道。

如果你的數據工程師不在場,你的專案小組就無法發揮最大的力量。在人工智能與數據科學領域,最具開拓精神的公司告訴我,他們已經將數據工程師納入所有開發小組。

贏得 GenAI 競賽

如果這些嚴酷的真相中有任何一條適用於您,請不要擔心。生成式人工智能正處於起步階段,還有時間重新開始,這一次,接受挑戰。

退一步,了解客戶需要解決的AI模型,讓數據工程師在早期開發階段參與,從一開始就確保競爭優勢,並花時間建立能夠提供穩定高質量可靠數據流的RAG管道。

並且,投資於現代數據堆棧,將數據質量作為首要任務。因為沒有高質量的數據,生成式人工智能只是一堆廢話。

總結
文章指出,企業對於GenAI的需求日益增加,但建立能夠真正帶來商業價值的生成式人工智慧模型並不容易。作者提出了三個艱難的真相:企業的GenAI功能使用率低且難以盈利、對於GenAI的應用感到害怕、以及RAG模型的開發困難。文章強調了高質量的專有數據對於GenAI的差異化和價值增長的重要性,並指出RAG模型的複雜性和需要克服的挑戰。作者呼籲企業需要積極應對這些挑戰,並將GenAI與企業數據和業務背景相結合,以實際推動差異化價值。