在过去的几年里,我们在长达数十年的智能机器构建探索中迈出了巨大的一步:大型语言模型(LLM)的出现。
这项技术基于试图模拟人类大脑的研究,已经引领到一个被称为生成式人工智能的新领域——这种软件可以以一种模仿人类能力的水平创造出可信且复杂的文本、图像和计算机代码。
全球各地的企业已经开始尝试这项新技术,他们相信这项技术可以改变媒体、金融、法律和专业服务,以及教育等公共服务。LLM的基础是谷歌研究人员于2017年开发的变压器模型。
“虽然我们一直理解我们的变压器工作的突破性质,但几年后,我们对其在新领域的持久潜力感到振奋,从医疗保健到机器人技术和安全领域,增强人类创造力等等,”谷歌高级研究员斯拉夫·彼得罗夫表示,他致力于构建包括LLMs在内的人工智能模型。
LLMs(大型语言模型)被吹捧的好处——通过撰写和分析文本来提高生产力——也是为什么它对人类构成威胁的原因。根据高盛集团的说法,LLMs可能使跨大型经济体的相当于3亿全职工人面临自动化风险,导致大规模失业。
随着技术迅速融入我们的生活,了解LLM生成文本的方式意味着了解为什么这些模型是如此多才多艺的认知引擎,以及它们还能帮助创造什么其他东西。
要编写文本,LLMs必须首先将单词翻译成他们理解的语言。
首先,一段文字被分成标记 — 基本单位,可以被编码。标记通常代表单词的一部分,但我们将每个完整单词转换为一个标记。
为了掌握一个词的含义,比如在我们的例子中,大型语言模型首先通过使用大量的训练数据在上下文中观察它,注意周围的词语。这些数据集是基于整理在互联网上发布的文本,新的大型语言模型是通过数十亿字的训练来训练的。
最终,我们得到了一个庞大的单词集合,这些单词在训练数据中与工作一起发现,以及那些在附近未找到的单词。
当模型处理这组单词时,它会生成一个向量 — 或值列表 — 并根据每个单词在训练数据中的接近程度进行调整。这个向量被称为词嵌入。
词嵌入可以有数百个值,每个值代表一个单词含义的不同方面。就像你可能通过其特征来描述一座房子 - 类型、位置、卧室、浴室、楼层 - 嵌入中的值量化了一个单词的语言特征。
这些特征的衍生方式意味着我们不知道每个值具体代表什么,但我们预期以类似方式使用的词通常具有相似外观的嵌入。
例如,像海洋和海洋这样的一对词可能不会在相同的语境中使用('all at ocean'并不是'all at sea'的直接替代),但它们的含义相近,嵌入使我们能够量化这种相似性。
通过将每个嵌入表示的数百个值减少到只有两个,我们可以更清晰地看到这些单词之间的距离。
我们可能会发现代词的聚类,或者交通方式,以及能够量化这种方式的词语是模型生成文本的第一步。
但这并不是LLM如此聪明的唯一原因。解锁他们今天能够像流利地解析和书写的能力的是一种叫做transformer的工具,它极大地加快并增强了计算机理解语言的能力。
Transformer 一次处理整个序列——无论是句子、段落还是整篇文章——分析所有部分而不仅仅是单个词语。
这使得软件能够更好地捕捉上下文和模式,并更准确地翻译或生成文本。同时处理还使得LLMs的训练速度更快,从而提高了它们的效率和扩展能力。
谷歌的八名人工智能研究人员于2017年6月首次发表了有关变压器模型的研究。他们的11页研究论文标志着生成式人工智能时代的开始。
变压器架构的一个关键概念是自注意力。这是让LLMs理解单词之间关系的基础。
自注意力机制关注文本中的每个标记,并决定哪些标记对理解其含义最重要。
在变压器出现之前,最先进的人工智能翻译方法是循环神经网络(RNNs),它扫描句子中的每个单词并按顺序处理。
使用自注意力机制,transformer同时计算句子中的所有单词。捕捉这种上下文使得LLMs具有更加复杂的语言解析能力。
在这个例子中,一次评估整个句子意味着变压器能够理解兴趣被用作名词来解释个人对政治的看法。
如果我们微调这句话 . . .
. . . 模型理解兴趣现在是以金融意义使用的。
当我们将句子组合在一起时,由于模型对伴随文本的关注,它仍然能够识别每个单词的正确含义。
对于利息的首次使用,它是无的,并且在那里受到最多的关注。
对于第二个,它是速率和银行。
这项功能对于高级文本生成至关重要。如果没有它,一些上下文中可互换使用但在其他情况下不可互换的单词可能会被错误使用。
有效地,自我关注意味着如果生成了这个句子的摘要,你在写有关利率的内容时不会使用热情。
这种能力超越了像兴趣这样有多重含义的词语。
在下面的句子中,自注意力能够计算出它最有可能是在指代狗。
如果我们改变句子,用"美味"代替"饥饿",模型就能重新计算,现在最有可能指的是骨头。
自注意力对语言处理的好处随着规模的扩大而增加。它使LLM能够获取句子边界之外的上下文,让模型更好地理解单词的使用方式和时机。
我
有
不
兴趣
在
政治
世界上最大、最先进的LLM之一是GPT-4,这是OpenAI最新的人工智能模型,该公司表示在美国律师资格考试、高级预科考试和SAT学校考试等多个学术和专业基准上表现出“人类水平的表现”
GPT-4可以生成和吸收大量文本:用户可以输入多达25,000个英文单词,这意味着它可以处理详细的财务文件、文学作品或技术手册。
这款产品已经改变了科技行业,全球最大的科技公司,包括支持OpenAI的谷歌、Meta和微软,正在与规模较小的初创公司一道竞相主导这一领域。
它们发布的LLM包括谷歌的PaLM模型,用于驱动其聊天机器人Bard,Anthropic的Claude模型,Meta的LLaMA和Cohere的Command等。
虽然这些模型已经被各种企业采用,但其中一些公司因为使用从网络上抓取的受版权保护的文本、图像和音频而面临法律纠纷。
这是因为当前的LLM是在大部分英语互联网上进行训练的,这种信息量使它们比以往的更强大。
从这个庞大的文字和图像语料库中,模型学习如何识别模式,最终预测下一个最佳词语。
在对提示进行标记化和编码后,我们得到了一块数据块,代表着机器理解的输入,包括单词的含义、位置和关系。
在最简单的情况下,该模型的目标是预测序列中的下一个单词,并重复此过程,直到输出完成。
为了做到这一点,该模型为每个标记分配一个概率分数,该分数代表它是序列中下一个单词的可能性。
直到生成的文本令其满意,它才会继续执行此操作。
但是这种孤立预测下一个单词的方法,即所谓的“贪婪搜索”,可能会引入问题。有时,虽然每个单独的标记可能是最合适的下一个选择,但整个短语可能与上下文不太相关。
不一定总是错误的,但也许不是你所期望的。
Transformer 使用多种方法来解决这个问题并提高其输出的质量。一个例子被称为束搜索。
它不仅关注序列中的下一个单词,而是将更大一组标记作为整体来考虑。
使用束搜索,模型能够考虑多条路径并找到最佳选项。
这会产生更好的结果,最终导致更连贯、更像人类的文本。
概率
\
加号
The
金融
时间
是
...
关于
经济学
和
播客
更多
比
刚刚
一个
打印
产品
一个
报纸
成立
在
1888
基于
在
英国
但事情并不总是按计划进行。尽管文本看起来似乎合理和连贯,但并不总是事实正确。LLM不是查找事实的搜索引擎;它们是模式识别引擎,猜测序列中的下一个最佳选项。
由于这种固有的预测性质,LLM也可以在研究人员称之为“幻觉”的过程中制造信息。它们可以生成虚构的数字、名称、日期、引语 — 甚至是网页链接或整篇文章。
LLM的用户分享了指向FT和彭博社不存在新闻文章的链接示例,虚构的研究论文引用,已出版书籍的错误作者以及充满事实错误的传记。
在纽约的一起备受关注的事件,一名律师使用ChatGPT为一起案件创建了一份简要报告。当辩护方审查报告时,他们发现其中充斥着虚构的司法意见和法律引用。该律师后来在自己的法庭听证会上告诉法官:“我没有意识到ChatGPT可以捏造案例。”
尽管研究人员表示幻觉永远不会完全消失,但谷歌、OpenAI等公司正在通过一种称为“接地”的过程来限制幻觉。这涉及将LLM的输出与网络搜索结果进行交叉核查,并向用户提供引用,以便他们进行验证。
人类也被用来提供反馈并填补信息中的空白 — 这个过程被称为人类反馈强化学习(RLHF) — 进一步提高了输出的质量。但要理解哪些查询可能触发这些幻觉,以及如何预测和减少它们,仍然是一个重大的研究挑战。
尽管存在这些限制,变压器已经带来了一系列尖端人工智能应用。除了为Bard和ChatGPT等聊天机器人提供动力外,它还驱动我们手机键盘上的自动补全功能以及智能音箱中的语音识别。
然而,它真正的力量在于超越语言。其发明者发现变压器模型能够识别和预测任何重复的主题或模式。从图像中的像素,使用诸如Dall-E、Midjourney和Stable Diffusion等工具,到使用GitHub CoPilot等生成器的计算机代码。它甚至可以预测音乐中的音符和蛋白质中的DNA,以帮助设计药物分子。
几十年来,研究人员构建了专门的模型来进行总结、翻译、搜索和检索。变压器将所有这些操作统一到一个结构中,能够执行各种各样的任务。
“拿这个简单的模型来预测下一个词,它……可以做任何事情,”AI初创公司Cohere的首席执行官、变压器论文的合著者Aidan Gomez说道。
现在他们有一种模型类型,它是“在整个互联网上训练的,输出的结果比以往任何东西都更好”,他说。
这是故事中的神奇部分。
这个故事是免费阅读的,所以您可以与尚未订阅FT的家人和朋友分享。