AI寫不出好文章：這個「缺陷」揭露了什麼？

從GPT-2到GPT-5，AI技術突飛猛進，卻仍無法寫出一篇值得閱讀的文章。這不只是技術問題，更是一面照出人類創作本質的鏡子。

七年前，一個AI寫出了這樣的句子：「在淋浴間裡，他一邊啃著檸檬，一邊想著他的妻子。」

這句話奇怪、跳躍、帶著某種不可解釋的詩意。它來自2019年的GPT-2。詩人兼電腦科學家凱蒂·傑羅說：「那個模型是有創造力的。現在的模型不會這樣做了。」

問題是：現在的模型「更聰明」了。

越訓練、越平庸：AI寫作的結構性困境

今天的大型語言模型（LLM）能預測蛋白質結構、生成逼真影片、用一句話寫出完整應用程式。OpenAI CEO 山姆·奧特曼豪言，未來的AI將「解決氣候變遷、建立太空殖民地、發現所有物理定律」。但在另一場對談中，他坦承：就算是未來的GPT-6、GPT-7，頂多也只能寫出「一位真正詩人的普通詩作」。

這個落差從何而來？The Atlantic記者賈斯敏·孫深入採訪了AI公司內部人員、學術研究者與AI寫作新創的創辦人，拼出了一幅清晰的圖景。

LLM的訓練分兩個階段。「預訓練」階段，模型吞下幾乎整個網際網路——Reddit貼文、YouTube字幕、SEO垃圾內容。量，而非質，才是關鍵。「後訓練」階段，則是塑造模型「性格」的時刻：讓它有益、誠實、無害，用人類評分員的回饋引導它走向「正確答案」。

Allen Institute for AI的後訓練負責人納森·蘭伯特直說：「你越控制這些特質，就越壓制創造力。」當一個模型被要求同時是絕妙的散文家、博士級數學家、又嚴格遵守安全規範，它就會變得僵硬，像一個在面試中戰戰兢兢、不敢說錯半個字的求職者。

GPT-2的「怪異」，正是它創造力的來源。但那種不可預測性，對商業化的大公司來說是風險。「大公司要的是能賺錢的聊天機器人。會賺錢的，不是那個怪咖，」傑羅說。

廣告合作

[email protected]

用感嘆號數量評分的荒謬現場

評估AI寫作品質的困難，在實際操作中演變成一場荒誕劇。

一位曾在AI數據公司Scale AI擔任評估員的人描述：為了量化「語氣」這個模糊概念，評分標準包含「回應最多使用兩個感嘆號」的規則。「有很多次，我明明覺得B的回答整體更好，但因為它有三個感嘆號，我只能評A更優。」他還曾被要求評估同人小說的「事實準確性」。

一位曾與頂尖AI實驗室合作的作家則說，公司不斷要他分解「是什麼讓一部文學作品偉大」。「這根本無法被那種方式處理，」他說。他舉莎士比亞的十四行詩為例：這是最有格律限制的詩體之一，但偉大之處恰恰在於莎士比亞在遵守規則的同時，始終在試圖顛覆它。「我無法說清楚按照公式寫作的詩人與莎士比亞的差別在哪裡。我只知道兩者永遠不會被混淆。」

AI生成的文字有一種可辨識的「空洞感」：比喻不自然，給星期幾賦予味道、給鏡子加上縫線；刻意迴避生物性的意象——血、性、死亡，即便是比喻意義上也不例外。創意寫作課上常說的「stakes（切迫感）」，在AI的文字裡幾乎缺席。

Sudowrite（一個為小說作者設計的AI寫作助理）共同創辦人詹姆斯·余說：「大多數人寫出的好的第一部小說都是自傳性的。也許AI需要一個能夠活過一段人生、幾乎死去的模型，才能寫出真正的好故事。」

「幫我寫」與「幫我想」是兩件不同的事

這是否意味著AI在寫作領域毫無用處？未必。

賈斯敏·孫本人的實踐提供了另一種思路。她將自己過去的文章存檔餵給Claude，建立一套基於自己文風的個人化編輯標準，並明確告訴AI：「你不是共同作者。你無法感知。你的角色是幫助我以最好的自己來寫作。」

AI編輯回饋她：「停止把結尾寫成論文，把它寫成一個場景。」她重寫了四次結論。她說，這有點令人沮喪——被一個機器人否定。但批評是對的。

這個使用邏輯，在華語世界的創作生態中同樣值得深思。台灣、香港的獨立作家與內容創作者，面臨平台演算法壓縮原創空間的壓力；中國大陸的創作者則在更嚴格的內容審查框架下使用AI工具。當AI被訓練成「有益、無害」的助手，它所壓抑的「怪異」與「越界」，在不同的文化與政治語境下，意味著截然不同的東西。

對華語讀者而言，一個更根本的問題或許是：當AI能高效生產「合格的內容」，我們是在用它解放創作者，還是在加速一種新的內容均質化？

越訓練、越平庸：AI寫作的結構性困境

用感嘆號數量評分的荒謬現場

「幫我寫」與「幫我想」是兩件不同的事

观点

記者

相关文章