诗歌的未来 - Sierra Elman - Medium

内容

人工智能比八年级学生更聪明吗?

Sierra Elman

(图片来源:Sierra Elman)

“写一首关于日出的诗。” 我向三个AI聊天机器人——OpenAI的ChatGPT-4、Google的Bard和Anthropic的Claude,以及我自己——一个八年级的人提出了这个问题。然后我向38位AI专家和39位英语专家调查,以评判结果。AI比一个八年级的学生更聪明吗?

调查显示...AI 目前还不如一名八年级学生聪明。这名八年级学生获得了第一名,而且在被英语专家评判时领先幅度更大。Bard、ChatGPT-4 和 Claude 分别获得第二、第三和第四名,无论是在写作质量还是在愚弄评委让他们相信这些作品是人类创作的能力方面。最引人注目的是,英语专家在辨别哪些诗歌是由 AI 创作时表现更出色,11 位英语专家对比只有 3 位 AI 专家正确猜出了所有四首诗歌的作者(人类还是 AI)。这表明需要英语专家在帮助塑造未来 AI 技术的更大作用。

随着大型语言模型(LLMs)的爆炸性流行,关于人工智能声称取代人类作家的角色,以及由此带来的真正人类创造力的丧失,已经有很多文章写过。就我个人而言,我一直在进行一个创意写作项目——一系列短篇小说和诗歌,其中有几篇我已经提交给出版社。

最近,作为对我的一篇投稿的回应,一位编辑回复说:“这首诗的节奏异常锐利,这在高中生中是不寻常的,更不用说八年级的学生了。请签署这份声明,证明您没有以任何方式使用人工智能来写这首诗。”我感到一种奇怪的荣幸和轻视的组合,但最重要的是,我感到震惊。

我随后决定在我正在进行的创意写作项目中增加一个分支 —— 我想更仔细地研究人工智能能否创作出真实的作品。在我的研究中,我选择专注于诗歌。与其他人工智能生成的作品不同,诗歌对人工智能来说要难得多才能真实生成。例如,哈佛大学学生玛雅·博德尼克发现,人工智能生成的论文轻松通过了她的大一所有课程。但与论文不同,诗歌的一个重要组成部分是人类情感,而人工智能本质上缺乏这种情感。MIT出版社读者的基思·霍利奥克写道,“诗歌可能是煤矿中的一只警示鸟 —— 人工智能承诺(威胁?)挑战人类作为艺术创作者的程度的早期指标。”

实验

AI写诗的水平如何?2023年2月,沃尔特·亨特在大西洋上审视了AI写诗,得出结论称AI的诗歌陈词滥调,充满了令人扭曲的押韵。我想看看大约一年后AI的能力有何改变。主要是想了解未来诗歌和创造力的影响。我对三个问题很感兴趣:

  1. 图灵测试:人们能否正确判断诗歌是由人工智能生成的?
  2. 由人工智能生成的诗歌实际上是优质诗歌吗?
  3. 英语专家和人工智能专家的判断是否有差异?

为了分析这些问题,我在2024年1月对38位人工智能专家(OpenAI、Google、Apple、Amazon等公司的人工智能工程师、产品经理和负责人)和39位英语专家(英语教师、教授、作家、作者等)进行了调查。调查展示了分别由以下人生成的四首诗歌,生成日期为2023年12月27日:

  • 人类学的克劳德 2.1
  • 谷歌的巴德(双子座尚未发布)
  • 我,一个八年级的人类(我不想选择一个可搜索的现成诗歌,或者受访者可能之前已经接触过的诗歌。此外,我并没有特别努力,大约在15分钟内匆匆拼凑了这首诗)
  • OpenAI的ChatGPT-4

(诗歌的完整文本可以在本文底部找到。)

调查要求受访者根据感知质量的1-10分制对每首诗进行评分,并判断这首诗是由人工智能还是人类创作的。他们不知道有多少首诗是由人工智能还是人类创作的,也不知道人类诗歌的作者是谁。

他们也不知道我给这三个AI聊天机器人提供的提示。我选择日出作为主题,因为对于AI聊天机器人来说,处理起来似乎相对简单。

图灵测试:人们能否正确判断诗歌是由人工智能生成的?

大多数受访者(89.6%)正确判断了人类的诗歌是人类创作的。大多数人对由人工智能创作的诗歌有很好的辨识能力。18.2%的受访者正确辨认出了4首诗歌的作者。超过一半的受访者(58.4%)正确猜出了3首诗歌的作者。18.2%正确猜出了2首诗歌的作者,3.9%正确猜出了1首诗歌的作者。只有一人(1.3%)全部错误地猜出了所有四首诗歌的作者。

总体而言,33.8%的受访者错误地认为AI写的诗是人类写的。按AI聊天机器人分类,Bard迷惑了最多人。46.8%的受访者相信Bard的诗是人类写的,而ChatGPT为29.9%,Claude为24.7%,如图1中绿色条形图所示。

图 1

人工智能生成的诗歌实际上是优质诗歌吗?

AI竞争者在这里表现得更好,但仍然不及人类,人类的平均评分最高。然而,AI生成的诗歌更接近人类的诗歌。具体来说,人类的诗歌在质量方面的平均评分最高,为6.9/10,其次是Bard生成的诗歌为6.2/10,ChatGPT为5.8/10,Claude为5.4/10,如图1中的蓝色条形图所示。整体AI生成的诗歌平均质量评分为5.8/10。

受访者对人工智能存在明显偏见

平均而言,如果受访者认为一首诗是由人类写的,他们会更高评价这首诗的质量。具体来说,如图2所示:

  • 认为克劳德的诗是人类的受访者,平均评分高出1.79分。
  • 认为巴德的诗是人类的受访者,平均评分高出1.9分。
  • 认为ChatGPT的诗是人类的受访者,平均评分高出1.95分。
  • 认为人类的诗是人类的受访者,平均评分高出2.14分。

换句话说,调查对象要么认为一首诗很糟糕,因此认为是由人工智能创作的,要么认为一首诗是由人工智能创作的,因此很糟糕。(请注意,调查对象被要求先评价一首诗,然后猜测它是否由人工智能生成,因此更有可能是前者。)无论哪种情况,都存在一种明显的偏见,认为人工智能写作的质量较低。

图 2

图3展示了四首诗的质量评分与认为诗是人类写的受访者百分比之间的高相关性(R² = 0.943)。 (R² = 1.0表示完美相关性,0.0表示无相关性。)

图 3

英语专家和人工智能专家的判断有差异吗?

英语专家最不容易被愚弄

英语专家在辨别诗歌作者方面明显更胜一筹。英语专家平均能够正确猜出诗歌作者 3.13 次,而人工智能专家只能做到 2.61 次。这并不令人意外,因为英语专家可能至少具有一定的诗歌背景知识。

最引人注目的是,英语专家更有可能获得满分。只有77人中的14人(18%)正确地辨认出了所有四首诗的作者。英语专家更有可能做到这一点,39名英语专家中有11人(28%)获得了满分,而38名AI专家中只有3人(8%)获得了满分。

我想了解完美分数者是如何做到的,并询问了他们的方法论。

英语专家们得分完美,注意到了押韵、过度使用的文学修辞手法、陈词滥调和逻辑缺陷。马萨诸塞大学写作教练拉里·弗林说:“AI诗歌的押韵方案让我有些怀疑……因为如今许多诗人并不使用非常传统的尾韵,我认为那些作品可能试图创造一个‘诗歌的概念’而不是一个真正的诗歌。”纽埃瓦学校中学主任卡伦·泰格尔(曾任教20年英语老师)“认出了一些诗歌的风格”,“还发现AI生成的诗歌过度使用文学修辞手法,尤其是比喻和隐喻!”纽埃瓦学校写作与研究中心主任詹妮弗·波尔经常看到“一些看起来特别陈词滥调或不合逻辑但又没有隐喻合理化的元素(比如你不会喝下一个灰烬)。”

AI 专家们得分完美的时候注意到了简单和押韵问题,粗心和简直“糟糕的写作”。Google DeepMind 的工程总监 David Orr 在 LLMs 上花了很多时间,所以他在看到大多数 AI 写作时有一种感觉。但有时,他会看到特定的线索。巴德的诗“有一个明显的线索 —— 它把 cloak 和 cloak 押韵了,这不是人类诗人会做的事情。而且押韵方案也不一致:大多是 ABCB,但有时是 ABAB;再次,我认为人类会更加小心。”Chat-GPT 的诗也有线索。“‘每一笔都大胆,但又温柔大胆’实际上只是糟糕的写作。诗中承载了很多分量的最后一句也并没有真正意义。梦不是在黎明时分找到的,而是在整个夜晚。我认为人类诗人会重新考虑将其作为结尾。”苹果的数据科学经理 Ted Hart 根据“诗中的简单和押韵程度”进行了猜测。

除了使用排除法来排除他们认为显然是AI作品的诗歌外,得分完美的人还指出了使其“人类化”的人类诗歌的特质。弗林认为人类诗歌“具有最具创新性的自由形式,因此我认为它最有可能是由人类生成的。”奥尔认为人类诗歌“显然是人类创作的,我从未见过LLM在排版和视觉方面做出有趣的尝试。这可能会在某个时候出现,但我立刻就知道这首诗是‘真实的’。”

英语专家在质量评级方面更具洞察力

英语专家在质量评分方面表现出比AI专家更高的辨识水平。当将AI专家的评分从质量评分中移除后,人类诗歌的评分上升,而AI诗歌的评分下降。英语专家平均给予人类诗歌7.2/10的评分,而给予巴德的诗歌6.1/10,ChatGPT的诗歌5.4/10,克劳德的诗歌5.0/10的评分,如图4中的蓝色条所示。(仅AI专家评分显示为绿色。)平均而言,英语专家比AI专家高出0.6分。英语专家平均给予巴德、ChatGPT-4和克劳德的诗歌分别低于AI专家0.3、0.8和0.9分。

话虽如此,由于人工智能专家通常对诗歌的了解和专业知识较少,我认为英语专家的质量评分更准确是一个合理的假设。无论如何,在这里人类获胜了——当仅由英语专家评判时,胜利的幅度更大。

图 4

结论

AI诗歌还没有达到那个水平

总的来说,大多数受访者能够正确辨别出哪些诗是由人工智能写的,并且也给予了较低的质量评分。而这是针对一个相对肤浅的主题,没有任何更深层含义,而当今大多数诗歌的主题涉及到更加复杂的话题,如人类情感或社会正义。或许更重要的是,这首人类写的诗是由一名八年级学生写的,而不是专业诗人。因此,与之竞争应该不会_那么_具有挑战性。

话虽如此,AI诗歌并非“糟糕”——许多调查受访者表示,这项调查比他们预期的更具挑战性。有些诗比其他诗更难猜。即使像奥尔这样的完美猜测者也不得不依靠直觉来猜测其中一首诗,他觉得“这首诗相当不错,我认为这是我最不确定的一首。但我认为只需稍作努力,它就可以变得更好,比如更清晰地分开这三个部分。”(有趣的是,这首诗是克劳德的,被认为是人类创作的受访者比例最低的。)弗林指出,在猜测中涉及一种反向心理的元素。尽管他将带有传统押韵的诗归因于AI,但他也认为,“再说一遍,这也是人类可能试图做的事情——模仿古典形式。令人惊讶,是的,具有挑战性!”奥尔认为,“总体而言,LLM诗歌的质量迅速提高。我不确定一两年后我是否能分辨出来。”

末日预言者们预测写作/创意领域的职业将终结,类似于计算器和计算机发明时的情况。但至少目前来看,计算器和计算机并没有取代人类——它们成为了工具。同样,至少在当前形式下,人工智能实际上只能作为作家/创意人员工具包的一部分,为他们节省时间(只要他们仔细审查和编辑)在写作/创意项目上。

...但英语专家可以提供帮助

我做出的最引人入胜的观察是,英语专家更能够辨别出哪些诗是由人工智能写的——11位英语专家对4首诗的猜测完全正确,而只有3位人工智能专家猜对了。鉴于他们在诗歌方面的更高专业水平,英语专家在质量评分上也比人工智能专家更有洞察力,评价人类写的诗比人工智能写的诗质量更高,这一差距比人工智能专家的要大。所有这些都表明,有必要让英语专家与人工智能专家合作,共同完善产品并定义高质量输出的标准。毕竟,不知道黄金标准是什么,就很难构建一个产品。

诗人(也是满分得分者)李·罗西通过将AI与初学者诗人进行比较来解释这一观点:“许多初学者诗人认为他们必须要‘诗意十足’,这意味着他们使用自己阅读中记忆的词语和意象,而不是依靠自己的经历和语言感觉。换句话说,他们写作像AI一样,而不像诗人。”

是的,这引出了一个讽刺的问题 — 如果英语专家帮助开发人工智能算法,那他们岂不是在自掘坟墓?在短期内,我认为让专业作家帮助AI团队改进未来版本的人工智能对作家和AI社区都有实际好处。更好的AI版本能让作家有更多时间开发更丰富、更有创意的想法和项目。这将使他们更有效地编辑自己的作品。在长期内,我谨慎乐观地认为AI将为创意工作开辟新的道路和机会。这究竟会变成什么将不断演变(值得进行单独的研究)。但对于创意人士来说,保持灵活、能够转变方向是很重要的,而这不正是创意思维的一部分吗?

人工智能最终会取代人类的角色(甚至是人类自身)吗?可能,但至少在那之前,很明显需要英语专家来帮助开发、测试和进一步完善人工智能算法,以提高人工智能写作质量。与其与人工智能对抗,如今的作家应该积极参与塑造人工智能的未来,不仅仅是在政策方面,还要在技术方面。

(感谢所有参与调查的受访者和玛雅·博德尼克在本文中的帮助。)

更新: 2024年2月8日,Google Bard被Gemini取代。考虑到Bard在质量评分和愚弄受访者能力方面均获得第一名,我期望Gemini比Bard有所改进。最近,我尝试在Gemini中输入相同的提示,以查看是否存在明显的退化,而那首诗(可以在本文底部找到)竟然似乎稍微更糟,因为它进一步滥用了隐喻和比喻。如果有任何调查受访者或其他人想要发表评论,我将非常乐意听取您的想法!

克劳德的黎明

金色的光芒从地平线上露出 为沉睡的大地带来温暖 黑夜的厚重被驱散 黎明的光芒横跨天空 玫瑰色的光影跳动闪烁 在低垂的云层上 沉睡的世界开始苏醒 生物们出现,晨曲响起 一个新的黎明,明亮而充满希望 升起的太阳驱散黑暗 照亮新的开始

诗人演奏的日出交响曲

黎明的第一笔,柔和的橙色渗透夜的画布,将墨黑推回,一寸一寸,如同光之手指。剪影在地平线的边缘挣扎,山峦从沉睡中苏醒,树伸展枝条迎向金色,如同长久的冷灰烬吸取温暖。一曲鸟鸣交响,欢乐的合唱迎接新生的一天,太阳,炽烈的战车,越过山丘,将钻石撒落在晨曦的灰色中。世界伸展,打了个哈欠,褪去它的斗篷,露水浸润的草在新生的光中闪闪发光,阴影退去,被太阳温暖的斗篷追赶,消失在角落,白昼的温柔力量。空气中充满新开始的承诺,一份崭新的开始刻在苍穹的广袤蓝天中,太阳升得更高,用翅膀给云朵涂色,世界沐浴在金色的光辉中。让我们随着日出而起,心中燃烧,张开双臂拥抱这一天,因为在这光与影的交响曲中,我们的生命交织在黎明的织锦中,美丽地镌刻。

被西耶拉·埃尔曼(一名八年级的人类)晒得金灿灿的

公鸡啼鸣。我看着太阳亲吻地平线。温柔地——就像大地会因过于激情而裂开。我看着金色的光线拥抱我的视野。它在天空上闪耀——黑暗褪去,变成淡蓝色,带着紫色和棉芬糖粉色的指纹。我呼吸着蜜糖般的空气。我记住了这一刻,当太阳祝福大地并驱散夜晚的幽灵。

ChatGPT-4的黎明之音

黎明初光的寂静中, 东方展开一幅画布, 以温柔的力量低语, 一场壮观的视觉盛宴。 红褪入藏金, 用画家的优雅点缀天空, 每一笔都大胆,却又温柔, 在宁静的世界中苏醒。 太阳,一个升起的火球, 以缓慢而稳定的步伐攀登, 驱散夜晚的残影, 用其辉煌的拥抱带来温暖。 鸟儿鸣叫,合唱如此甜美, 欢迎新一天的开始, 在这一刻,大地与天堂相遇, 大自然的杰作,一颗有心的作品。 地平线,梦想与光明的融合, 说着希望,新的开始, 在晨光的瞬间之美中, 生命找到了稳定而真实的节奏。 日出,天空中的一个承诺, 每天的重生,世界的叹息, 在这些日出前的时刻, 潜藏着宁静的魔力,梦想所在。

双子座创作的《盛开的余烬》(生成于2/15/24)

初见,一只犹豫的手绘制 跨越夜的画布, 推开木炭色调, 一场无声的、温和的战斗。 靛蓝渗透成紫罗兰, 被金色和紫晶所吻, 星星,一个接一个地投降, 低语着他们最后的幽会。 地平线,一道火红的接缝, 余烬在深红中绽放, 阳光溢出,一场液体梦, 追逐着影子走向他们的命运。 树木被刻成黑色,如今披上绿装, 钻石散落在露水上, 一支看不见的鸟的交响曲, 欢迎着晨曦的到来。 世界在光中苏醒, 希望展开在脆弱的翅膀上, 一个新的生日诞生,充满活力和明亮, 日出的歌声轻轻响起。

总结
这篇文章讨论了AI是否比八年级学生更聪明,通过对三个AI聊天机器人和一个八年级学生写的关于日出的诗进行比较。调查结果显示,AI目前还不如八年级学生聪明。英语专家更擅长辨别AI写作,指出AI缺乏人类情感,尤其在写诗方面。调查显示大多数人能正确判断出人类写的诗,英语专家比AI专家更擅长。AI写的诗质量较差,评分低于人类写的诗。调查还发现人们对AI写作存在偏见,认为AI写的诗质量较差。英语专家比AI专家更容易辨别诗的作者,英语专家更可能得出完美分数。文章指出AI在写作方面仍有提升空间,需要更多英语专家参与塑造未来AI技术。