技术领袖需要了解的生成式人工智能的5个残酷真相 | byBarr Moses

驱动真正商业价值的GenAI需要真正的努力。但这是值得的。

图片由The Everett Collection在Shutterstock提供。图片由作者编辑。

GenAI 无处不在，各行各业的组织都在向其团队施加压力，要求他们加入这场竞赛——77% 的商业领袖担心他们已经错过了 GenAI 的好处。

数据团队正在努力回应这一号召。但构建一个真正能够推动业务价值的生成式人工智能模型是困难的。

从长远来看，与OpenAI API快速集成并不够。这是GenAI，但是竞争优势在哪里？为什么用户应该选择你而不是ChatGPT？

快速勾选框似乎是向前迈出的一步，但如果你还没有考虑如何将LLM与您的专有数据和业务背景相连接，以实际推动差异化价值，那你就已经落后了。

这并非夸张。仅本周我就与半打数据领导人讨论了这个话题。他们都清楚地意识到这是一场竞赛。在终点线上，会有赢家和输家。就像有着类似命运的“Blockbusters”和“Netflix”一样。

如果你觉得起跑枪已经响了，但你的团队还在起跑线上伸展身体，聊着“泡沫”和“炒作”，我整理了5个严酷的真相，来帮助摆脱自满。

艰难的真相＃1：您的生成式人工智能功能并未得到良好的采用，而且您的变现速度较慢。

“Barr，如果GenAI如此重要，为什么我们目前实施的功能被采纳得如此之差呢？”

首先，有几个原因。首先，你的人工智能计划并非是为了应对明确定义的用户问题的激增而构建的。对于大多数数据团队来说，这是因为你们在赶时间，现在还处于早期阶段，想要积累一些经验。

然而，你的用户很快就会遇到一个最适合由GenAI解决的问题，当这种情况发生时，与你的虎队想方设法将GenAI与用例联系起来相比，你将获得更好的采纳度。

因为现在还处于早期阶段，已经集成的生成式人工智能功能就像是“ChatGPT，但在这里。”

让我举个例子。想象一下，你可能每天都会使用的一款提高工作效率的应用程序，用于分享组织知识。这样的应用可能提供一个功能，可以对非结构化文本块执行命令，比如“总结一下”、“延长长度”或者“改变语气”。一个命令等于一个人工智能积分。

是的，那很有帮助，但它并不具有差异性。

也许团队决定购买一些AI积分，或者他们只是简单地点击其他选项并询问ChatGPT。我不想完全忽视或低估不将专有数据暴露给ChatGPT的好处，但这也只是一个比全国各地的业绩电话所描绘的解决方案和愿景更小的解决方案和愿景。

从概念到价值的那个讨厌的中间步骤。图片由Joe Reis on Substack提供。

所以请考虑：你的GenAI独特之处和附加价值是什么？让我给你一个提示：高质量的专有数据。

这就是为什么 RAG 模型（有时候也称为精细调整模型）对于通用人工智能倡议如此重要。它为 LLM 提供了对企业专有数据的访问。我将在下面解释原因。

艰难的真相 #2：你害怕与Gen AI做更多的事情。

这是真的：生成式人工智能令人望而生畏。

当然，你可以更深入地将你的AI模型整合到组织的流程中，但这似乎存在风险。让我们面对现实吧：ChatGPT会产生幻觉，无法预测。存在知识截断，使用户容易受到过时输出的影响。数据处理不当和提供消费者错误信息都会带来法律后果，即使是意外的。

听起来很真实，对吧？Llama 2肯定也这么认为。图片由Pinecone提供。

你的数据失误会产生后果。这就是为什么准确了解你向GenAI提供的数据，并确保数据准确无误至关重要。

在我们发送给数据领导者的匿名调查中，询问他们的团队离实现GenAI用例还有多远时，有一位回答说：“我认为我们的基础设施并不是阻碍我们的事情。我们在这里走得相当谨慎 —— 随着行业发展如此迅速，以及‘流氓’聊天机器人可能带来声誉损害的风险，我们暂时搁置计划，等待炒作稍微平息一些！”

这是我与许多数据领导人交谈时广泛分享的观点。如果数据团队突然暴露了面向客户的安全数据，那么他们就会受到牵连。数据治理是一个重要考虑因素，而且这是一个高门槛。

这些是真正需要解决的风险，但你不能坐在一旁解决它们。同时，还存在着真正的风险，即看着你的业务被率先找到解决方案的团队彻底颠覆。

使用微调和RAG将LLMs与您的专有数据联系起来是解决这个难题的重要部分，但并不容易...

艰难的真相＃3：RAG 很难。

我相信RAG（检索增强生成）和微调是未来企业生成式人工智能的核心。但尽管在大多数情况下RAG是更简单的方法，开发RAG应用程序仍然可能会复杂。

我们能不能都开始 RAGing 呢？有什么大不了的？图片由 Reddit 提供。

RAG可能看起来是定制LLM的明显解决方案。但是，即使对于最有才华的数据工程师来说，RAG的开发也需要一定的学习曲线。他们需要了解prompt engineering，向量数据库和嵌入向量，数据建模，数据编排，数据管道...所有这些都是为了RAG。而且，由于它是新的（在2020年由Meta AI引入），许多公司还没有足够的经验来建立最佳实践。

Databricks提供的_RAG应用架构。图片由Databricks提供。

这是 RAG 应用架构的过度简化描述：

RAG架构将信息检索与文本生成模型相结合，因此在尝试回答用户问题时可以访问您的数据库。
数据库必须是一个可信的来源，包括专有数据，并允许模型将最新和可靠的信息纳入其响应和推理中。
在后台，数据管道将各种结构化和非结构化来源导入数据库，以保持其准确性和最新性。
RAG链接收用户查询（文本），从数据库中检索相关数据，然后将该数据和查询传递给LLM，以生成高度准确和个性化的响应。

这种架构存在许多复杂性，但它确实具有重要的好处：

它以准确的专有数据为基础，使其价值大大提升。
它将您的模型带到数据中，而不是将数据带到模型中，这是一种相对简单、成本效益高的方法。

我们可以看到这在现代数据堆栈中变得现实。最大的参与者正在以飞快的速度努力，通过在其环境中提供LLM来使RAG更加容易，企业数据存储在其中。

Snowflake Cortex 现在使组织能够快速分析数据并直接在 Snowflake 中构建 AI 应用程序。Databricks 的新 Foundation Model APIs 在 Databricks 中直接提供对 LLMs 的即时访问。Microsoft 发布了 Microsoft Azure OpenAI Service，而 Amazon 最近推出了 Amazon Redshift Query Editor。

_Snowflake数据云。图片由Umesh Patel在Medium提供。

我相信所有这些功能都有很大的可能性推动高采用率。但是，它们也加强了对这些数据存储中数据质量的关注。如果供给 RAG 管道的数据是异常的、过时的或者不可信的，那么你的生成式 AI 项目的未来会怎样呢？

艰难的真相 #4: 你的数据还没有准备好。

仔细审视你的数据基础设施。很可能，即使你拥有完美的 RAG 管道、经过精心调整的模型和清晰的用例准备好明天就投入使用（这该有多好？），你仍然无法获得干净、良好建模的数据集来将它们全部整合起来。

假设你想让你的聊天机器人与客户进行交互。为了做任何有用的事情，它需要了解组织与客户的关系。如果你是一家企业组织，那么这种关系很可能是在150个数据源和5个独立数据库中定义的...其中3个仍然在本地。

如果这描述了你的组织，很可能你的数据基础设施还需要一年（甚至两年！）才能达到GenAI的要求。

这意味着，如果你希望在不久的将来能够选择对GenAI进行_某些_操作，你需要在现代数据平台上创建有用、高度可靠、整合的、充分记录的数据集...昨天就需要了。否则教练会叫你上场，而你却措手不及。

您的数据工程团队是确保数据健康的支柱。而现代数据堆栈使数据工程团队能够持续监控数据质量。

艰难的真相 #5：你在不知不觉中排挤了关键的 Gen AI 参与者。

生成式人工智能是一项团队运动，特别是在开发方面。许多数据团队犯了排除关键成员的错误，这在长远来看会让他们付出代价。

谁应该加入AI虎队？领导者或主要业务利益相关者，以率先发起倡议并提醒团队业务价值。软件工程师负责开发代码、用户界面应用程序和API调用。数据科学家负责考虑新的用例，优化模型，并推动团队朝新方向发展。这里缺少谁？

数据工程师。

数据工程师对GenAI项目至关重要。他们将能够理解提供与ChatGPT相比的竞争优势的专有业务数据，并将构建使该数据通过RAG可用于LLM的管道。

如果你的数据工程师不在场，你的团队就不是完整的。GenAI 中最具开拓精神的公司告诉我，他们已经在所有开发小组中嵌入了数据工程师。

赢得GenAI竞赛

如果这些严酷的真相中有任何一条适用于你，不要担心。生成式人工智能处于起步阶段，还有时间重新开始，这一次，接受挑战。

退一步，了解客户需求，AI 模型可以解决的问题，将数据工程师纳入早期开发阶段，从一开始就确保竞争优势，并花时间构建能够提供稳定高质量可靠数据流的 RAG 管道。

并且，投资于现代数据堆栈，将数据质量作为首要任务。因为没有高质量数据的生成式人工智能只是一堆空洞的东西。