每个人都知道本地模型,例如在消费者自己的硬件上运行大型语言模型(LLMs),将会开启使用该技术的新方式。本地LLMs可以提供超越常见主题如定制和信息安全的好处。在LLMs等技术起飞阶段,通常通过新的使用方式,您有机会找到一些新的产品市场契合点。目前,这是由量化过程驱动,以降低模型占用空间,并使用高吞吐量代码进行推断。
尽管媒体经常报道的是黑客们说:“如果我能在冰箱上运行我的Llama 7b,除了我的Garmin手表,它们可以相互交流并通过自我对弈训练42年,生成100万个代币。” 但实际上,本地模型几乎完全取决于它们在基本不同的瓶颈和扩展规律所赋予的策略中的位置。本地模型将获胜,因为它们可以解决LLMs的一些延迟问题。
当查看 ChatGPT 应用程序通过音频进行通信时,优化延迟看起来像是我们如何减少模型推理时间,有效调整批处理大小以实现最大计算利用率,减少无线通信时间,尝试将令牌流式传输给用户而不是在批处理中输出结束令牌后,决定是在云端还是在设备上渲染音频等等。
对于本地模型来说,这是一个更简单的方程式:如何让我的模型每秒获得最大的标记数,并将其与一个简单的文本转语音模型连接起来?iPhone 上的 ChatGPT 等应用程序将受到 iOS 设计核心中的沙盒化的困扰。在本地运行时的简化复杂性,其中一个 LLM 可以在操作系统中描述一个端点,消除了上述许多潜在的瓶颈。在短期内,Android 手机可能会以这种方式拥有 Gemini 模型。在更远的未来,消费者设备将拥有一个 LLM、一个文本到图像模型、音频模型等等。在 AI 中获胜的操作系统原语将向开发人员公开所有这些。我感到兴奋。
本地模型更有可能针对延迟进行优化的第二个核心轴是,像OpenAI这样的公司正在努力将他们最好的模型加速到足够快的程度以支持实时音频,而关注设备端的公司和黑客则可能会反其道而行之。对于前沿模型提供商来说,遵循这条道路是一个存在性问题——资本成本和增长决定了他们的选择。
其他人可能会问:我们如何训练出最佳模型,同时保持足够小,以便具有约20-50毫秒的延迟?像GPT4Turbo这样的云端LLM的延迟仍然在100毫秒或更高。如果你在与机器人交流,这两种延迟之间的差异就是一个可行产品和一个有趣演示之间的差异,就是这样。
这也得到了纯托管成本的支持。在过去几个月里,为开放的 GPT3.5 竞争对手提供服务,如 Mixtral,已经实现了商品化。在这种情况下,将其推送到本地计算是在成本基础上取胜的唯一途径。查看有关此内容的详细分析(SemiAnalysis)和更多关于人工F智能的信息(Artificial Fintelligence),了解开放模型推理的零售竞赛。
本地模型受到更实际的扩展规律的支配,即功耗效率、电池和低前期成本。 超大规模云中的对应模型的前期和推理成本正在呈指数增长,指向尚未被证明为财务可靠的规模经济。托管的、开放权重模型正被推向0推理成本的中间地带。能在iPhone上运行的LLM将无论如何都会留下来。
大多数研究人员着迷于每秒标记数或计算训练吞吐量的浮点运算,但很明显,延迟将成为未来几年LLM服务中生死时刻的决定因素。在撰写本文时,新的Rabbit r1设备花费20秒完成一个请求的视频在Twitter和TikTok上走红。
慢的延迟完全影响体验。这就像一个磨坊。
关于为什么带音频的ChatGPT将是一款引人注目的产品,我建议阅读这篇Ben Thompson的文章。
如果我能运行一个更快的 ChatGPT 版本,直接集成到我的 Mac 上,我宁愿使用那个,而不是尝试弄清楚如何从 HuggingFace 下载模型,训练它,然后在其他软件中运行。
当地模型显然更适合让您使用您确切选择的模型,但对于大多数用户来说,当地Llamas为何重要似乎是一个红鲱。一小部分工程师和黑客的个性化需求,比如r/localllama中的明星,将推动性能优化的研究和发展。推断的优化措施很快被苹果和谷歌等大型科技公司采纳,将悄悄地转移到消费产品中。
其他事情,比如人们与他们的AI女友聊上几个小时,将会共同发展,但在当地模型工具构建者的口头关注中并不是主要焦点。就像Facebook和App Store一样,苹果将从其意识形态敌人中受益。如果苹果制造出最优化的本地设备,每个人都会购买它们,即使公司价值观与使用方式不符。
总会有一群人在家里调整语言模型,就像总会有一群人越狱iPhone一样。大多数消费者只会选择一个模型,进行一些基本的上下文/推理时间调整,然后尽情享受其中的乐趣。
在未来几年,操作系统中的本地模型将具有适度的微调和提示选项,以实现个性化,但我预计仍然会有一些限制条件。如果我们要从制造这些设备所需的大量资本中受益,最受欢迎的设备很可能会有一些人认为是轻微缺陷。本地模型始终比API端点更宽松,但我认为由风险敏感的大型科技公司提供的审查不太可能降至零。
不同类型的设备将有不同的优化选择。大多数本地推理将在消费者设备上进行,如MacBook和iPhone,这些设备永远不会真正被充分优化以提高训练性能。这些性能-功耗比设备将拥有各种狂野的硬件架构,用于加速Transformer推理(并且能够高效地完成此任务)。我敢打赌,已经有人在研发一款GPU,其中直接专门为关键推理加速(如KV缓存)而设计的硅片。
其他机器,台式游戏电脑,仍然可以被组装在一起用于培训目的,但这只是人口中的一个很小的组成部分,不会成为推动经济的力量。由于他们的热情,这个群体在未来几年将发挥不成比例的影响力,但大多数机器学习实验室服务更大的抱负。
关于本地模型的一些基本资源:
- 当地羊驼 子论坛。
- 最近的 Import AI 讨论了本地模型。
- Ollama,是一个流行的用于玩弄这些东西的工具。
上周,扎克发布了一个关于 Meta 到 2024 年通过 35 万台 Nvidia H100 GPU 构建的 reel 广告。扎克承诺负责任、开放的 AGI,Llama 3 和令人愉悦的元宇宙 Ray Bans 一次性实现。
由于这个原因,Meta是最有趣的大科技公司,分析人工智能战略——因为它是最开放式的。
扎克(Zuck)在发布冲动的健身后自拍视频时制造的所有噪音,都是为了在竞争对手迈向新商业模式的过程中削弱他们的竞争力。开源策略旨在让技术更易获取,以减少对竞争对手的依赖(从而使竞争对手的客户寻找其他选择)。35万个H100和所有这些仍然远远少于他的竞争对手需要花费的金额来实现他们的目标,而Meta可以通过大量基于深度学习的产品(如视频理解或为数十亿用户生成图像)分摊这种计算成本。
有人说 Meta 正试图利用开源技术赶上领先的人工智能公司。我认为 Meta 没有动力在这里获利,并最终成为未来的封闭领先人工智能公司(尽管这是我乐意欢迎的结果)。
我的支持这一理论的最爱,来自不同世界观的是AI安全中心的Dan Hendrycks。
在开放权重LLM的下游,本地模型的世界是我仍然必须押注苹果的原因。这也是为什么Meta和苹果再次紧密相连。除了苹果,没有任何公司有更好的文化,试图从体验中去除所有多余的东西,使其快速、易于使用和高效。要在应用程序中启用硬件加速的本地LLM API,需要进行一些重大的文化变革,因此它们仍然存在弱点,但这个弱点还不足以被忽视。
在专门的性能功耗硬件领域,Google(携带他们的新Pixel TPU芯片用于Gemini Nano)可能会是唤醒他们的那个同行。Google在LLMs领域的未来尚未确定。他们有足够的人才去做事情,但人才密度是否足够高或管理层是否有能力发挥这些人才尚不清楚。我仍然认为Google很快将在领先的边缘获得成功,如果不是这样,他们有一个坚实的本地转型在等待着他们。
另一家拥有普及家用设备的公司是亚马逊。虽然我不指望 Echo 能做到这一点,但它们仍然拥有最好的语音助手外形因素之一。如果他们想要利用这一点,最好快速收购 Anthropic 公司。
OpenAI 仍然保持舒适的领先地位,因为他们拥有迄今为止最好的模型和稳固的用户习惯。到了2024年,模型排名将会多次受到动摇,因此他们不能坐得太舒服。
寻找更多内容吗?查看我与汤姆·吉尔伯特合作的播客,The Retort。
我在别处
- 在The Retort的第16集中,我们回顾了两个重要主题:计算和评估。
模型与数据集
- 01 AI(这家中国公司)发布了他们的第一个视觉语言模型(6B和34B变体)。看起来很有前途。
- Stability发布了他们小型LM的新版本(1.6B)!
- Snorkel发布了一个7B模型(来自Mistral Instruct v2),使用了类似DPO方法的拒绝抽样进行训练(就像新的关于自我奖励LLMs的Meta论文)。他们说很快会发布一篇博客文章,但我预计这种训练方法将在接下来的几个月内迅速崛起,鉴于我们目前看到的早期反响。
链接
- HuggingFace发布了两个新的LLMs工作存储库。一个是关于并行化训练的,另一个是关于数据处理的(与AI2的Dolma存储库非常相似)。
- AlphaGeometry,DeepMind的新作品,解决了数学奥林匹克问题,并伴随着其中一位作者的相当精彩演讲。这是一个关于如何使用LLMs进行数学演绎树的很酷的解释。
- 我在HuggingFace的前同事发布了KTO vs IPO vs DPO比较。这是一个扎实的第一步,但作为一个社区,我们还有很多东西要学习。
- 一个很酷的新网站,用于评估开放和封闭模型,在许多轴上优先考虑可视化效果,正在广为流传。如果我使用它,我会告诉你的。
- 一篇好文章总结了许多AI安全智库的反开放立场(哇,他们真的很多)。我不一定同意所有细节/标题,但这个博客一直有相当不错的东西。
家政服务
订阅互连
AI重要思想的联系。高层次和技术思维之间的边界。由领先的工程师、研究人员和投资者在周三早上阅读。