テクノロジーリーダーのための生成AIに関する5つの厳しい真実 | byBarr Moses

実際のビジネス価値を生み出すGenAIは実際の作業が必要です。しかし、それは価値があります。

オリジナルの画像はThe Everett Collectionによるもので、Shutterstockで提供されています。画像は著者によって編集されました。

GenAIはどこにでもあり、さまざまな業界の組織がチームに競争に参加するよう圧力をかけています — 77% of business leaders は、すでにGenAIの恩恵を逃していると恐れています。

データチームは要請に応えるために奔走しています。しかし、実際にビジネス価値を生み出す生成AIモデルを構築するのは難しいです。

そして長期的には、OpenAI APIとの迅速な統合だけでは不十分です。GenAIですが、どこに堀があるのでしょうか？なぜユーザーはChatGPTよりもあなたを選ぶべきなのでしょうか？

そのボックスのクイックチェックは前進の一歩のように感じますが、既にLLMsをプロプライエタリデータやビジネスコンテキストとどのように結び付けて実際に差別化された価値を生み出すかについて考えていないのであれば、遅れています。

それは誇張ではありません。今週だけでも半ダースのデータリーダーとこのトピックについて話しました。彼らの誰もが、これは競争であることを見逃しませんでした。ゴールには勝者と敗者がいます。ブロックバスターやネットフリックスのようなものです。

スターターガンが鳴った感じがするけど、チームはまだスタートラインでストレッチをして"バブル"や"ハイプ"について話しているようなら、気楽さを振り払うための5つの厳しい真実をまとめました。

ハードな真実＃1：あなたの生成AI機能はよく採用されておらず、収益化が遅れています。

「Barr、GenAIがそんなに重要なら、なぜ私たちが実装した現在の機能があまり受け入れられていないのですか？」

まあ、いくつかの理由があります。1つは、AIイニシアチブが明確に定義されたユーザーの問題への対応として構築されていなかったことです。ほとんどのデータチームにとって、それは競争が激しく、初期段階であり、経験を積みたいという理由です。

ただし、ユーザーがGenAIで最もよく解決できる問題を抱えることはそう遠くないでしょう。そのときには、GenAIをユースケースに結びつける方法を熟考するタイガーチームよりも、はるかに優れた採用率を持つでしょう。

そして、これはまだ初期段階なので、統合されている生成AI機能は単なる「ChatGPT but over here.」です。

例を挙げましょう。毎日使う生産性アプリケーションを考えてみてください。このようなアプリでは、「これを要約する」「長くする」「トーンを変える」といったコマンドを使って構造化されていないテキストのブロックに対して操作する機能が提供されるかもしれません。1つのコマンドにつき1つのAIクレジットが消費されます。

はい、それは役立ちますが、差別化されていません。

たぶんチームはAIクレジットを購入することを決定するかもしれません。あるいは、単に他のタブをクリックしてChatGPTに質問するだけかもしれません。ChatGPTにプロプライエタリデータを公開しない利点を完全に見落としたり無視したりしたくはありませんが、それは全国の収益コールで描かれているものよりも小さな解決策とビジョンです。

_価値の概念から実現までの厄介な中間段階。画像はJoe Reis on Substackによるものです。

だから考えてみてください：あなたのGenAIの差別化要因と付加価値は何ですか？ヒントをあげましょう：高品質の独自データです。

それがなぜRAGモデル（または時々、調整されたモデル）がGen AIイニシアティブにとって非常に重要なのか。それはLLMに企業の独自データへのアクセスを提供するからです。以下でその理由を説明します。

ハードな真実＃2：あなたはGen AIでさらに多くを行うことを恐れています。

It’s true: generative AI is intimidating.

確かに、AIモデルを組織のプロセスにより深く統合することができますが、それはリスクを伴うと感じます。正直に言ってしまえば、ChatGPTは幻覚を見ることがあり、予測することはできません。ユーザーが古い情報に影響を受けやすい知識の切れ端があります。データの誤処理や消費者に誤った情報を提供することには法的な影響があります。たとえそれが偶発的であってもです。

十分にリアルな音がしますね？ Llama 2は確信しています。画像はPinecone提供

あなたのデータのミスは影響を及ぼします。だからこそ、GenAIに提供しているデータが正確であることを正確に把握することが重要なのです。

データリーダーに送信した匿名の調査で、GenAIユースケースを実現するためのチームの進捗状況を尋ねたところ、1つの回答がありました。「インフラストラクチャが私たちの足を引っ張っているとは思いません。ここではかなり慎重に進んでいます。環境が非常に速く変化しており、『無法な』チャットボットによる評判の損傷のリスクがあるため、我々は様子を見て、ハイプが少し収まるのを待っています！」

これは私が話す多くのデータリーダーに共有されている感情です。データチームが突然顧客向けの安全なデータを表面化させた場合、彼らは責任を負います。データガバナンスは重要な考慮事項であり、それをクリアするには高い基準があります。high bar

これらは解決策が必要な実際のリスクですが、傍観していては解決しません。また、最初にそれを見つけたチームによってビジネスが根本的に変革されるという実際のリスクも存在します。

Grounding LLMs in your proprietary data with fine tuning and RAG is a big piece to this puzzle, but it’s not easy…

ハードな真実＃3：RAGは難しいです。

私は、RAG（検索強化生成）とファインチューニングが、エンタープライズ生成AIの未来の中心であると信じています。しかし、ほとんどの場合、RAGはよりシンプルなアプローチですが、RAGアプリの開発は依然として複雑なことがあります。

みんなでRAGを始められないの？何が問題なの？画像提供：Reddit._

RAGは、LLMのカスタマイズのための明らかな解決策のように思えるかもしれません。しかし、RAGの開発には学習曲線があります。たとえ最も優れたデータエンジニアであっても、prompt engineering、ベクトルデータベースと埋め込みベクトル、データモデリング、データオーケストレーション、データパイプライン... すべてがRAGのために必要です。そして、2020年にMeta AIによって導入された新しい技術なので、多くの企業はまだそれに関する十分な経験を持っておらず、ベストプラクティスを確立することができていません。

RAGアプリケーションアーキテクチャ。画像提供: Databricks._

RAGアプリケーションアーキテクチャの過度な単純化版を以下に示します:

RAGアーキテクチャは情報検索とテキスト生成モデルを組み合わせており、ユーザーの質問に答える際にデータベースにアクセスします。
データベースはプロプライエタリデータを含む信頼できるソースでなければならず、モデルが最新かつ信頼性のある情報を応答と推論に組み込むことを可能にします。
データパイプラインはさまざまな構造化および非構造化ソースをデータベースに取り込み、それを正確かつ最新の状態に保ちます。
RAGチェーンはユーザーのクエリ（テキスト）を取得し、データベースから関連データを取得し、それをクエリとともにLLMに渡して、高精度かつ個別化された応答を生成します。

このアーキテクチャには多くの複雑さがありますが、重要な利点があります:

正確な独自データに基づいてLLMを裏付けることで、その価値を大幅に高めます。
モデルをデータに持ち込むのではなく、データをモデルに持ち込むことで、比較的簡単で費用対効果の高いアプローチを実現します。

現代のデータスタックでは、これが現実のものになるのを見ることができます。最大のプレイヤーたちは、エンタープライズデータが保存されている環境内でLLMを提供することで、RAGをより簡単にするために非常に速いスピードで取り組んでいます。

Snowflake Cortex now enables organizations to quickly analyze data and build AI apps directly in Snowflake. Databricks’ new Foundation Model APIs provide instant access to LLMs directly within Databricks. Microsoft released Microsoft Azure OpenAI Service and Amazon recently launched the Amazon Redshift Query Editor.

_Snowflakeデータクラウド。画像はMediumのUmesh Patel氏によるものです。

これらの機能すべてが高い採用率をもたらす可能性があると私は信じています。しかし、これらのデータストアにおけるデータ品質への焦点も高めます。RAGパイプラインに供給されるデータが異常であったり、時代遅れであったり、信頼性に欠ける場合、生成AIイニシアチブの未来はどうなるのでしょうか？

ハードな真実＃4：あなたのデータはまだ準備ができていません。

データインフラストラクチャをしっかりと見直してください。もし完璧なRAGパイプライン、調整されたモデル、そして明確なユースケースが明日すぐに使える状態であっても、それをすべて組み合わせるためのクリーンで適切にモデル化されたデータセットがない可能性が高いです（それはいいことですね？）。

あなたがチャットボットが顧客と連携することを望むとしましょう。役に立つ何かをするためには、その組織と顧客の関係について知っている必要があります。もしあなたがエンタープライズ組織であるなら、その関係はおそらく150のデータソースと5つの分断されたデータベースで定義されています...そのうち3つはまだオンプレミスです。

もしそれがあなたの組織を表しているなら、おそらくあなたのデータインフラがGenAIに対応する準備が整っているのは1年（または2年！）先の可能性があります。

これは、GenAIと何かをするオプションを_近いうちに_持ちたい場合、現代のデータプラットフォームで有用で非常に信頼性の高い、統合された、十分に文書化されたデータセットを作成する必要があります... 昨日。さもないと、コーチがあなたを試合に呼び出し、あなたのズボンが下がってしまいます。

あなたのデータエンジニアリングチームは、データの健全性を確保するための要となります。そして、モダンなデータスタックはデータエンジニアリングチームが将来もデータ品質を継続的にモニターできるようにします。

ハードな真実＃5：あなたはそれに気付かずに重要なGen AIプレイヤーを脇に追いやっています。

Generative AIはチームスポーツです、特に開発に関しては。多くのデータチームは、GenAIタイガーチームから重要なプレイヤーを除外するという間違いをしており、それが長期的に彼らにコストをかけています。

AIタイガーチームには誰がいるべきですか？リーダーシップ、または主要なビジネスステークホルダーは、イニシアチブを先導し、グループにビジネス価値を思い出させるために必要です。ソフトウェアエンジニアはコードを開発し、ユーザー向けアプリケーションとAPI呼び出しを行います。データサイエンティストは新しいユースケースを考慮し、モデルを微調整し、チームを新しい方向に導く必要があります。ここには誰が不足していますか？

データエンジニア

データエンジニアはGenAIイニシアチブにとって重要です。彼らはChatGPTに対して競争上の優位性を提供する独自のビジネスデータを理解し、そのデータをLLMを介してRAGに利用可能にするパイプラインを構築することができます。

データエンジニアが部屋にいない場合、タイガーチームは完全な力を発揮していません。GenAIの最も先駆的な企業は、すでにすべての開発チームにデータエンジニアを組み込んでいると私に伝えています。

GenAIレースの勝利

もしこれらの厳しい真実のいずれかが当てはまる場合、心配しないでください。生成AIはまだ初期段階にあるため、やり直す時間はまだあります。今度はその挑戦を受け入れましょう。

顧客のニーズを理解し、AIモデルで解決できるように一歩引いて考え、データエンジニアを初期の開発段階に参加させて、最初から競争力を確保し、信頼性の高い高品質なデータの安定したストリームを供給できるRAGパイプラインを構築するために時間をかける

そして、データ品質を優先するために、モダンなデータスタックに投資してください。なぜなら、高品質なデータがなければ、生成AIはただのたくさんのフラフだけだからです。