詩歌的未來 - Sierra Elman - Medium

內容

人工智慧是否比八年級生更聰明?

Sierra Elman

(圖片來源: Sierra Elman)

“寫一首關於日出的詩。” 我向三個 AI 聊天機器人——OpenAI 的 ChatGPT-4、Google 的 Bard 和 Anthropic 的 Claude——以及我自己——一個八年級的人提出了這個問題。然後我請來了一個由 38 位 AI 專家和 39 位英語專家組成的評審團來評判結果。AI 是否比一個八年級的學生更聰明呢?

根據調查顯示... 目前 AI 還不如一個八年級學生聰明。這位八年級學生贏得了第一名,並且在被英語專家評判時取得了更高的分數。Bard、ChatGPT-4 和 Claude 分別排名第二、第三和第四,無論是在寫作質量還是在讓評委相信它們是由人類撰寫的能力方面。最引人注目的是,英語專家在辨別哪些詩是由 AI 寫的方面表現更好,有 11 位英語專家對比只有 3 位 AI 專家正確猜測了所有四首詩的作者(人類還是 AI)。這表明需要英語專家在幫助塑造未來版本的 AI 技術方面發揮更大的作用。

隨著大型語言模型(LLMs)的爆炸性流行,關於人工智慧聲稱取代人類作家的角色,以及由此帶來的真實人類創造力流失的討論層出不窮。就個人而言,我一直在進行一個創意寫作項目 —— 一系列短篇小說和詩歌,其中一些已經提交進行出版。

最近,對於我的一篇投稿,一位編輯回應說:“這首詩的韻律非常出色,這對高中生來說是不尋常的,更不用說是八年級的學生。請簽署這份聲明,證明您在寫這首詩時沒有以任何方式使用人工智慧。” 我感到一種奇怪的受寵若驚和受冷落的組合,但最重要的是,感到驚訝。

我隨後決定為我正在進行的創意寫作項目增加一個分支 — 我想更仔細地研究 AI 能夠創作真實作品的能力。在我的研究中,我選擇專注於詩歌。與其他 AI 生成的作品不同,詩歌對於 AI 來說要生成真實作品要困難得多。例如,哈佛大學生 Maya Bodnick 發現 AI 生成的文章輕鬆通過她的大一所有課程。但與文章不同,詩歌的一個主要組成部分是人類情感,而 AI 本質上缺乏這方面。Keith Holyoak 在 MIT Press Reader 中寫道:“詩歌可能作為煤礦中的一種指標 — 早期指示 AI 承諾(威脅?)挑戰人類作為藝術創作者的程度。”

實驗

人工智慧寫詩的能力如何?2023年2月,華特·亨特(Walt Hunter)在大西洋上探討了人工智慧詩歌,得出結論認為人工智慧詩歌陳腔濫調,充滿令人扭曲的押韻。我想看看大約一年後人工智慧的能力有何改變。主要是想更多地了解詩歌未來以及創意的影響。我對三個問題感興趣:

  1. 圖靈測試: 人們能正確辨識出由人工智慧生成的詩嗎?
  2. 由人工智慧生成的詩是否真的是高質量的詩?
  3. 英語專家和人工智慧專家的判斷是否有所不同?

為了分析這些問題,我在2024年1月對38位人工智慧專家(人工智慧工程師、產品經理,以及來自OpenAI、Google、Apple、Amazon等公司的主管)和39位英語專家(英語教師、教授、作家、作者等)進行了調查。調查分別呈現了四首詩,這些詩是在2023年12月27日生成的。

  • Anthropic’s Claude 2.1
  • Google’s Bard (Gemini had not yet been released)
  • 我,一個八年級的人類(我不想選擇一首可搜索的現成詩歌,或者受訪者可能之前已經見過的詩歌。此外,我沒有特別努力,大約在15分鐘內匆忙拼湊了這首詩)
  • OpenAI’s ChatGPT-4

(詩歌的完整文本可在本帖底部找到。)

調查要求受訪者根據他們認為的品質,在1-10的評分尺度上評價每首詩,並判斷他們認為這首詩是由人工智慧還是人類寫的。他們不知道有多少首詩是由人工智慧或人類寫的,也不知道人類詩的作者。

他們也不知道我給這三個AI聊天機器人的提示。我選擇了日出作為主題,因為對於AI聊天機器人來說,這似乎相對簡單。

圖靈測試: 人們能正確辨識出由人工智慧生成的詩歌嗎?

大多數受訪者(89.6%)正確地辨識出人類的詩是由人類寫的。大多數人對由人工智慧寫的詩有相當好的辨識能力。18.2% 的受訪者正確辨識出了 4/4 首詩的作者。超過一半的受訪者(58.4%)正確猜測出了 3/4 首詩的作者。18.2% 正確猜測出了 2/4 首詩的作者,而 3.9% 正確猜測出了 1/4 首詩的作者。只有一個人(1.3%)全部錯誤地猜測了所有四首詩的作者。

整體而言,33.8% 的受訪者錯誤地認為 AI 寫的詩是人類寫的。從 AI 聊天機器人來看,Bard 遠遠地騙過最多人。46.8% 的受訪者相信 Bard 的詩是由人類寫的,相較之下 ChatGPT 為 29.9%,Claude 為 24.7%,如圖 1 中綠色條所示。

圖 1

AI 生成的詩歌是否真的是高質量的詩歌?

AI競爭者在這裡表現得更好,但仍然不及人類,人類平均評分最高。然而,人類的詩歌被AI的詩歌更密切地跟隨。具體而言,人類的詩歌在質量方面的平均評分最高,為6.9/10,其次是Bard生成的詩歌為6.2/10,ChatGPT為5.8/10,Claude為5.4/10,如圖1中的藍色條所示。整體AI詩歌的平均質量評分為5.8/10。

受訪者對人工智慧存在明顯偏見

平均而言,如果受訪者相信一首詩是由人類寫的,他們會在評價詩的質量時給予較高的分數。具體來說,如圖2所示:

  • 認為克勞德的詩是人類的受訪者,平均評分高出1.79分。
  • 認為巴德的詩是人類的受訪者,平均評分高出1.9分。
  • 認為ChatGPT的詩是人類的受訪者,平均評分高出1.95分。
  • 認為人類的詩是人類的受訪者,平均評分高出2.14分。

換句話說,受訪者要麼認為一首詩很糟糕,因此認為是由人工智慧寫的,要麼認為一首詩是由人工智慧寫的,因此認為很糟糕。(請注意,受訪者被要求先評價一首詩,然後猜測它是否由人工智慧生成,因此更有可能是前者。)無論哪種情況,都存在對人工智慧寫作品質的明顯偏見。

圖 2

圖 3 顯示了四首詩的品質評分與認為該詩是由人類撰寫的受訪者百分比之間的高相關性(R² = 0.943)。 (R² = 1.0 表示完美相關,0.0 表示沒有相關性。)

圖 3

英語專家和人工智能專家的判斷有差異嗎?

英語專家最不容易被愚弄

英語專家明顯更擅長辨別詩歌的作者。英語專家平均每4次中有3.13次正確猜測詩歌的作者,而人工智能專家只能在4次中有2.61次成功。這並不令人驚訝,因為英語專家可能至少具有一些詩歌背景知識。

最引人注目的是,英語專家更有可能獲得滿分。只有77位受訪者中的14位(18%)正確辨識出所有四首詩的作者。英語專家更有可能做到這一點,39位英語專家中有11位(28%)獲得滿分,而只有38位人工智能專家中的3位(8%)獲得滿分。

我想找出完美分數者是如何做到的,並詢問了他們的方法。

英語專家們得分完美,注意到了押韻、過度使用的文學手法、陳詞濫調和邏輯缺陷。麻省大學寫作講師拉里·弗林說:“人工智能詩歌的押韻方案讓我有點懷疑...因為如今許多詩人並不使用非常傳統的結尾押韻,我認為這些作品可能是在嘗試創造詩的‘概念’而不是一首真正的詩。”紐埃瓦學校中學主任卡倫·泰格爾(曾任教20年英語老師)“認出了幾首詩的風格”,“還發現人工智能生成的詩過度使用文學手法,尤其是比喻和隱喻!”紐埃瓦學校寫作與研究中心主任珍妮弗·波爾經常看到“一些看似特別陳腐或不合邏輯但又沒有隱喻合理化的元素(例如你不會喝下一塊餘燼)。

AI 專家們得分完美時注意到了簡單和押韻問題、粗心和純粹的「寫得不好」。Google DeepMind 工程總監 David Orr 在 LLMs 上花了很多時間,所以當他看到現在大多數 AI 寫的文本時,他有一種感覺。但有時,他會看到特定的線索。巴德的詩「有一個明顯的線索 — 它把 cloak 和 cloak 押韻,這不是一個人類詩人會做的事情。此外,押韻方案並不一致:大多是 ABCB,但有時是 ABAB;再次,我認為人類會更加小心。」Chat-GPT 的詩也有線索。「『每一筆都大膽,但又溫柔大膽』說實話只是寫得不好。詩中承載了很多重量的最後一句也沒有真正意義。夢不是在黎明時分找到的,而是整夜都在。我認為一個人類詩人會重新考慮將其作為結尾。」蘋果的數據科學經理 Ted Hart 基於「詩中的簡單和押韻程度」來猜測。

除了使用排除法來排除他們認為顯然是人工智慧作品的詩歌外,完美的得分者還指出了使其“人類”的人類詩歌的特質。弗林認為人類詩歌“具有最具創新性的自由形式,因此我認為它最有可能是由人類生成的。”奧爾認為人類詩歌“非常明顯是人類創作的,我從未見過語言模型做出有趣的排版和視覺效果。這可能在某個時候會出現,但我立即知道這個是‘真實的’。”

英語專家在質量評分上更具鑑別力

英語專家在評分品質方面表現出比人工智能專家更高的識別水準。當人工智能專家的評分從品質評分中移除時,人類詩歌的評分上升,而人工智能詩歌的評分下降。英語專家平均將人類詩歌評為7.2/10,而巴德詩歌為6.1/10,ChatGPT的詩歌為5.4/10,克勞德的詩歌為5.0/10,如圖4中的藍色條所示。(僅顯示人工智能專家的評分為綠色。)平均而言,英語專家將人類詩歌評分比人工智能專家高0.6分。平均而言,英語專家將巴德、ChatGPT-4和克勞德的詩歌評分分別比人工智能專家低0.3、0.8和0.9分。

儘管如此,由於人工智慧專家通常對詩歌的知識和專業知識較少,我認為假設英語專家的評分更準確是合理的。無論如何,在這裡人類獲勝了,而僅由英語專家評判時,這種優勢更大。

圖 4

結論

AI 詩歌還沒有達到那個水準

整體而言,大多數受訪者能夠正確辨識出哪些詩是由人工智慧寫的,並且也給予較低的評分。而這是針對一個相對膚淺的主題,沒有任何更深層含義,而當今大多數詩歌的主題涉及遠較複雜的議題,如人類情感或社會正義。或許更重要的是,這首人類詩是由一名八年級學生寫的,而非專業詩人。因此,要與之競爭或許並不是_那麼_具挑戰性。

儘管如此,AI詩歌並不差 - 許多受訪者表示,這份調查比他們預期的更具挑戰性。有些詩比其他詩更難猜。即使像奧爾這樣的完美猜測者也不得不依靠直覺來猜測其中一首詩,他覺得“這首詩相當不錯,我認為這是我最不確定的一首。但我認為只需稍作努力,它就可以更好,比如更清晰地分開這三個部分。”(有趣的是,這是克勞德的詩,被認為是人類的受訪者比例最低的詩。)弗林指出,在猜測中涉及一種反向心理的元素。儘管他將帶有傳統結尾押韻的詩歸因於AI,但他也認為,“再說一次,這也是人類可能試圖做的事情 - 模仿古典形式。令人驚訝,是的,具有挑戰性!”奧爾認為,“總的來說,LLM詩歌進展迅速且相當出色。我不確定一兩年後我能否分辨出來。”

預言家預測寫作/創意領域的職業將結束,類似於計算機和電腦發明時的情況。但至少目前來看,計算機和電腦並沒有取代人類 — 它們已成為工具。同樣地,至少在目前的形式下,人工智慧真正只能作為寫作者/創意工作者工具箱的一部分,幫助他們節省時間(只要他們仔細檢查和編輯)在寫作/創意項目上。

...但英語專家可以幫忙

我做出的最引人入勝的觀察是,英語專家能夠更好地辨別哪些詩是由 AI 寫的 — 11 位英語專家對比只有 3 位 AI 專家完美猜測了所有 4 首詩。由於他們在詩歌方面的專業知識更豐富,英語專家在評分質量時也更具辨識力,比 AI 專家更高的幅度將人類詩歌評分為比 AI 詩歌更高的質量。這一切都指向一個需要讓英語專家與 AI 專家合作的 AI 產品團隊,以幫助完善產品並定義高質量輸出的內容。畢竟,沒有知道什麼是最高標準,就很難建立產品。

詩人(也是滿分得分者)李·羅西(Lee Rossi)通過將人工智能比作初學詩人來解釋這一點:“許多初學詩人認為他們必須要‘富有詩意’,這意味著他們使用他們從閱讀中記住的詞語和意象,而不是依賴於他們自己的經驗和語言感覺。換句話說,他們寫作像人工智能一樣,而不像詩人。”

是的,這帶來了一個具有諷刺意味的問題 — 如果英語專家幫助開發人工智慧算法,那麼他們是否正在自掘墳墓?從短期來看,我認為讓專業作家幫助人工智慧團隊改進未來版本的人工智慧對作家和人工智慧社區都有實際好處。更好的人工智慧版本能讓作家有更多時間發展更豐富、更有創意的想法和項目。這將使他們能夠更有效地編輯自己的作品。在長期來看,我謹慎樂觀地認為人工智慧將為創意工作開闢新的途徑和機會。這將不斷演變,值得進行獨立研究。但對於創意人士來說,保持靈活並能夠轉變方向是重要的,這不正是創意思維的一部分嗎?

人工智慧最終會取代人類的角色(甚至是人類自身)嗎?可能性存在,但至少在那之前,顯然需要英語專家來協助發展、測試和進一步完善人工智慧演算法,以提升人工智慧寫作品質。與其對抗人工智慧,今天的作家應該積極參與塑造人工智慧的未來,不僅僅是在政策方面,還應該在技術方面發揮積極作用。

(感謝所有參與調查的受訪者和瑪雅·博德尼克在本文中的幫助。)

更新: 於2024年2月8日,Google Bard被Gemini取代。考慮到Bard在質量評分和愚弄受訪者的能力方面均獲得第一名,我預期Gemini會比Bard有所改進。最近,我嘗試在Gemini中輸入相同的提示,以查看是否存在明顯的退化,而該詩(可在本文底部找到)竟然似乎稍微更糟,因為它進一步過度使用了比喻和象徵。如果有任何調查受訪者或其他人想要對此發表評論,我將非常感興趣聽取您的想法!

Claude 的 Daybreak

金色的陽光從地平線上露出 為沉睡的大地帶來溫暖 黑夜的厚重被驅逐 當黎明的光芒橫跨天際 玫瑰色的光影跳躍閃爍 在低垂的雲層上 沉睡的世界開始活躍 生物們出現,晨歌響起 一個新的一天開始,充滿希望 升起的太陽驅散黑暗 照亮新的開始

早晨交響曲 by 巴德

黎明的第一筆,柔和的橙色在夜的畫布上流淌,將墨黑的黑暗推開,一寸一寸,如同光之手指。輪廓在地平線的邊緣搖曳,山脈從沉睡中醒來,樹木伸展枝條朝著金色,如同吸飽溫暖的長冷餘燼。一曲鳥鳴交響,歡樂的合唱迎接新生的一天,太陽,一輛火熱的戰車,越過山丘,將鑽石撒落在晨曦的灰色中。世界伸展、打哈欠,拋開它的斗篷,露水濕吻的草在新生的光中閃閃發亮,陰影退去,被太陽溫暖的斗篷追趕,消失在角落,白晝的溫和力量。空氣中嗡嗡作響,充滿新開始的承諾,一個嶄新的開始刻在天空的浩瀚藍中,太陽升得更高,用翅膀為雲彩描繪,世界沐浴在金色的光輝中。讓我們隨著日出而升起,心中熊熊燃燒,攤開雙臂擁抱這一天,因為在這光影的交響曲中,我們的生命交織在黎明的織錦中,美麗地刻畫。

Sierra Elman(一名八年級的人)的陽光沐浴

公雞啼鳴。我看著太陽親吻地平線。優雅地 - 就像大地會因過於熱情而裂開。我看著金色的光緊擁我的視野。它在天空上形成一層光澤 - 黑暗漸漸褪去,變成淺藍色,帶有紫羅蘭和棉芬棉糖粉紅的指紋。我吸入蜜糖般的空氣。我記住這一刻,太陽祝福大地,驅散夜晚的幽靈。

ChatGPT-4 的《黎明的低語》

在黎明初曉的寂靜中,東方展開一幅畫布,以溫和的色彩低語,呈現一場壯觀的視覺盛宴。赤紅融入藏紅花金,用畫家的優雅在天空中濺灑,每一筆都大膽而溫柔,在寧靜的世界中醒來。太陽如火球般升起,以緩慢而穩定的步伐攀登,驅散夜晚的痕跡,帶著溫暖的輻射擁抱。鳥兒甜美地鳴唱,歡迎新一天的開始,在這一刻,大地與天堂相會,自然的傑作,一份由心而來的作品。地平線是夢想與光明的融合,講述希望,嶄新的開始,在清晨景象的瞬息之美中,生命找到了穩定而真實的節奏。日出,是天空中的一個承諾,每日的重生,世界的歎息,在這些日出前的時刻,存在著寧靜的魔法,夢想所在。

雙子座的綻放餘燼(生成於2/15/24)

初見時,一雙猶豫的手繪畫,穿越夜的畫布,推開木炭色調,一場無聲、溫柔的鬥爭。靛藍流血成紫羅蘭,被金色和紫水晶親吻,星星一顆接一顆投降,低語著他們最後的約會。地平線的線條,一條火紅的接縫,餘燼爆發成赤紅的綻放,陽光灑落,一場液體夢,追逐影子走向他們的命運。樹木被刻上黑色,現在穿著綠色,鑽石散落在露水上,一場看不見的鳥兒交響樂,歡迎晨曦的色調。世界在光中甦醒,希望展開在脆弱的翅膀上,一個新的生日誕生,充滿活力和明亮,日出的歌聲輕輕吟唱。

總結
這篇文章探討了人工智慧是否比八年級學生更聰明,透過詩歌實驗來比較。結果顯示,目前人工智慧還無法超越八年級學生的創作能力。英語專家在區分人工智慧和人類寫作方面表現更佳,指出人工智慧在詩歌創作中缺乏人類情感。人們對人工智慧寫作存在偏見,認為人類寫作品質更高。英語專家比人工智慧專家更能準確辨別詩歌作者,並指出人工智慧生成的詩歌常見的問題。整體而言,人工智慧在詩歌創作方面仍有進步的空間。