特德·姜:人工智能為何無法創(chuàng)作藝術(shù)?
孫佳賀 譯 王洪喆 校
原文于2024年8月31日刊載于The New Yorker

特德·姜
在寫小說或繪畫時(shí),藝術(shù)家所做的選擇與人工智能存在本質(zhì)區(qū)別。
1953年,羅爾德·達(dá)爾(Roald Dahl)發(fā)表了短篇小說《偉大的自動(dòng)語法生成器》(The Great Automatic Grammatizator),講述了一個(gè)心懷作家夢(mèng)的電氣工程師的故事。某天,在建成了世界上最快的計(jì)算機(jī)后,工程師意識(shí)到,英語語法所遵循規(guī)則的嚴(yán)謹(jǐn)性近乎于數(shù)學(xué)。他發(fā)明了一臺(tái)小說寫作機(jī),這臺(tái)機(jī)器可以在三十秒內(nèi)寫出五千字的短篇小說、在十五分鐘內(nèi)寫出長(zhǎng)篇小說。操作者需要像駕駛汽車或者演奏管風(fēng)琴那樣,通過手柄和腳踏板來調(diào)控幽默與悲愴的配比。最終小說寫作機(jī)的成品大受歡迎,短短一年內(nèi),半數(shù)英文小說皆源自此項(xiàng)發(fā)明。
藝術(shù)是否有某種本質(zhì)屬性,使其不像達(dá)爾想的那樣按下按鈕就能機(jī)械創(chuàng)作?當(dāng)前ChatGPT這樣的大語言模型生成的小說仍顯拙劣,但可以想見其技術(shù)表現(xiàn)終將有所改進(jìn)。關(guān)鍵問題在于,此類改進(jìn)可以優(yōu)化至何種程度?在加減運(yùn)算領(lǐng)域,計(jì)算器已實(shí)現(xiàn)對(duì)人類的絕對(duì)超越;同理,人工智能是否終將在小說創(chuàng)作、繪畫生成及電影制作等藝術(shù)領(lǐng)域全面超越人類?
眾所周知,藝術(shù)的概念及其優(yōu)劣之分難以界定。但容我提出一個(gè)概括性的定義:藝術(shù)本質(zhì)上是眾多選擇的產(chǎn)物。以小說創(chuàng)作舉例則很好理解。在寫小說時(shí),無論自覺與否,你幾乎要在輸入的每個(gè)詞上做選擇。簡(jiǎn)單來說,可以假設(shè)一萬字的小說大約需要一萬個(gè)選擇。但如果只是向人工智能程序輸入提示詞,你做的選擇將少之又少。輸入一百字的提示詞大約只需一百次選擇。
當(dāng)人工智能根據(jù)你的提示詞生成了一萬字的小說,它必須彌補(bǔ)你未做出的所有選擇。常見的實(shí)現(xiàn)路徑有兩種:一為平均化處理,通過互聯(lián)網(wǎng)文本數(shù)據(jù)等現(xiàn)有資源,將其他作者的選擇平均化。這種方式是所有潛在選擇中最無趣的一種,這也解釋了為何人工智能生成的文本常常平淡乏味。二為風(fēng)格模仿,指令程序模擬某個(gè)作者的選擇,這將產(chǎn)生同質(zhì)化的故事。在這兩種情況下,人工智能均無法創(chuàng)作出有趣的藝術(shù)作品。
在我看來,盡管畫家的選擇更難量化,但相同的底層邏輯亦適用于視覺藝術(shù)。真正的畫作承載著大量的決策痕跡。相比之下,人們?cè)谑褂肈ALL-E[1]等“文生圖”程序[2]時(shí)僅需輸入如“披甲騎士對(duì)戰(zhàn)噴火龍”的提示詞,余下創(chuàng)作皆由程序完成。(最新版DALL-E支持至多四千字符約數(shù)百詞的提示詞,仍不足以描述場(chǎng)景的全部細(xì)節(jié)。)生成圖像中的多數(shù)選擇必須借鑒網(wǎng)絡(luò)上既有的類似畫作。即便圖像呈現(xiàn)精良的渲染效果,這也無法歸功于輸入提示詞的用戶。
部分評(píng)論家認(rèn)為,“文生圖”程序?qū)⑷鐢z影術(shù)問世一般對(duì)視覺文化產(chǎn)生重大影響。此觀點(diǎn)盡管具有表面的合理性,但將生成式人工智能與攝影術(shù)相提并論仍需深入辨析。攝影術(shù)誕生之初并不像藝術(shù)媒介,因其似乎并不蘊(yùn)含多少?zèng)Q策空間,人們只需架好照相機(jī)并啟動(dòng)曝光過程。但隨著時(shí)間的推移,人們意識(shí)到照相機(jī)蘊(yùn)含著無窮的創(chuàng)作可能性,而藝術(shù)性也就潛藏于攝影師的諸多選擇之中。或許難以說清具體的選擇,但對(duì)比業(yè)余愛好者與專業(yè)攝影師的作品則高下立判。那么問題就轉(zhuǎn)化為:使用“文生圖”程序時(shí)人們是否有相似的機(jī)會(huì)做出大量選擇?我認(rèn)為答案是否定的。無論是從事數(shù)字繪畫還是傳統(tǒng)繪畫的藝術(shù)家,在作畫時(shí)腦海中做出的決策都遠(yuǎn)非幾百字的提示詞所能涵蓋。
我們不妨設(shè)想這樣一個(gè)“文生圖”程序:經(jīng)過多次對(duì)話,它允許你在文本框中輸入數(shù)萬詞以實(shí)現(xiàn)對(duì)生成圖像的精細(xì)化控制,這類似于具有純文本界面的Photoshop。我認(rèn)為,使用這種程序的人仍然稱得上是藝術(shù)家。電影導(dǎo)演貝尼特·米勒(Bennett Miller)曾使用DALL-E 2生成了一系列極具視覺沖擊力的圖像,并將其在高古軒畫廊[3](Gagosian Gallery)展出。為了創(chuàng)作這些作品,他精心編寫了詳盡的文本提示,并讓DALL-E反復(fù)調(diào)整生成的圖像。為了最終展出的二十件作品,他累計(jì)生成了逾十萬張圖像。但米勒坦言,在DALL-E后續(xù)版本中他難以復(fù)現(xiàn)同等水平的創(chuàng)作效果。我推測(cè)這可能是因?yàn)槊桌諏ALL-E用于其設(shè)計(jì)用途以外的創(chuàng)作場(chǎng)景。就好比他通過技術(shù)手段破解進(jìn)入了Microsoft Paint的系統(tǒng)使其像Photoshop一樣運(yùn)行,但一旦Microsoft Paint版本更新,他的破解手段就宣告失敗。OpenAI可能無意開發(fā)適配于米勒這類用戶的產(chǎn)品,因?yàn)樾枰脩艋ㄙM(fèi)數(shù)月時(shí)間生成單幅圖像的產(chǎn)品難以吸引大眾市場(chǎng)。該公司致力于讓用戶“不勞而獲”。

貝尼特·米勒展出的部分作品
很難想象一個(gè)程序經(jīng)過多次會(huì)話能幫你寫出好的小說。這個(gè)假想中的寫作程序可能要求你輸入十萬詞的提示詞,以便它生成完全不同的十萬詞來組成你構(gòu)思的小說。我不清楚這類程序的具體形態(tài)。從理論上而言,如果此類程序確實(shí)存在,用戶或許可以被稱為作家。但同樣,我認(rèn)為OpenAI這樣的公司不會(huì)開發(fā)需要用戶從零開始付出努力的ChatGPT版本。生成式人工智能的賣點(diǎn)是生成內(nèi)容遠(yuǎn)超輸入內(nèi)容,這也正是其難以成為藝術(shù)家有效工具的癥結(jié)所在。
推廣生成式人工智能程序的企業(yè)聲稱它們將激發(fā)創(chuàng)造力。本質(zhì)上而言,它們是在說藝術(shù)可以只需靈感而無需汗水——但二者不可輕易分割。我并非主張藝術(shù)必須包含繁瑣的勞動(dòng),而是強(qiáng)調(diào)藝術(shù)需要在各個(gè)層級(jí)上做出選擇。對(duì)成品而言,創(chuàng)作中的無數(shù)微觀選擇與構(gòu)思中的少數(shù)宏觀決策同樣重要。將藝術(shù)創(chuàng)作選擇中的“宏觀性”等同于“重要性”實(shí)屬謬誤,宏觀與微觀相互關(guān)聯(lián)才是藝術(shù)性所在。
相信“靈感至上”的人或許并不熟悉藝術(shù)創(chuàng)作的工具。即使創(chuàng)作目標(biāo)定位于通俗娛樂而非高雅藝術(shù),這一判斷也同樣適用。人們往往低估娛樂產(chǎn)品所需的創(chuàng)作投入。一部驚悚小說或許無法實(shí)現(xiàn)卡夫卡所言的“成為劈開心中冰封之海的利斧”的文學(xué)理想,但其創(chuàng)作過程中的精心設(shè)計(jì)可能不亞于一只瑞士手表。僅靠基礎(chǔ)設(shè)定和情節(jié)難以寫出有效的驚悚小說。若將驚悚小說中的全部語句替換為語義等價(jià)的表述,可能很難保證其原本的娛樂性。這說明驚悚小說中的語句及其代表的微觀選擇有助于決定驚悚小說的效果。
許多小說家都有過這樣的經(jīng)歷:某個(gè)自認(rèn)為掌握絕佳小說創(chuàng)意的人找到他們,并愿意分享創(chuàng)意以換取五五分成的收益。這樣的人無意中透露出,他們認(rèn)為遣詞造句不過是微末瑣事,而非故事敘述的基礎(chǔ)。生成式人工智能吸引的正是這些認(rèn)為無需運(yùn)用媒介工具即可自我表達(dá)的人。傳統(tǒng)小說、繪畫和電影的創(chuàng)作者之所以被這些藝術(shù)形式吸引,是因?yàn)樗麄兡芏床斓矫糠N媒介獨(dú)有的表達(dá)潛能。正是最大化利用媒介潛能的渴望使他們的作品——無論是作為娛樂產(chǎn)品還是藝術(shù)品——都廣受好評(píng)。
當(dāng)然,無論是論文、報(bào)告還是電子郵件,絕大多數(shù)文本創(chuàng)作都無需數(shù)千次選擇。在這些場(chǎng)景下,自動(dòng)化任務(wù)處理有何危害嗎?容我提出另一個(gè)概括性的觀點(diǎn):唯有作者付諸努力的寫作才值得讀者關(guān)注。雖然寫作過程中的付出無法保證最終作品值得一讀,但缺乏投入就無法產(chǎn)出有價(jià)值的作品。閱讀私人電子郵件與審閱商業(yè)報(bào)告時(shí)投入的注意力類型固然有所差異,但在兩種情況下,唯有作者將個(gè)人思考傾注其中,讀者的注意力投入才是合理的。
近期,谷歌在巴黎奧運(yùn)會(huì)期間為其產(chǎn)品Gemini投放了一則宣傳廣告——該產(chǎn)品直接對(duì)標(biāo)OpenAI的GPT-4。廣告展示了一位父親用Gemini代筆撰寫應(yīng)援信,由其女兒寄給一位鼓舞她的奧運(yùn)會(huì)參賽運(yùn)動(dòng)員。谷歌在觀眾廣泛反對(duì)后撤下了這則廣告。某傳媒學(xué)教授稱其為“我見過的最令人不安的廣告之一”。值得注意的是,盡管被人工智能取代的并非藝術(shù)創(chuàng)造力,公眾仍然反響強(qiáng)烈。事實(shí)上,孩子寫給運(yùn)動(dòng)員的應(yīng)援信從未被期待有多么精彩絕倫,如果這個(gè)小女孩親筆寫信,其內(nèi)容可能與無數(shù)其他信件高度同質(zhì)化。但此類信件的價(jià)值——無論對(duì)寫信的孩子還是收信的運(yùn)動(dòng)員而言——在于情感真摯,而非文采斐然。
我們中的許多人都曾寄送過在商店購(gòu)買的賀卡,也清楚收信人能辨識(shí)信上的文字并非我們親筆所寫。我們不會(huì)把從賀曼(Hallmark)公司[4]購(gòu)買的賀卡上的內(nèi)容再謄抄一遍,因?yàn)槟菚?huì)讓人覺得不夠誠(chéng)實(shí)。程序員西蒙·威利森(Simon Willison)將大語言模型的訓(xùn)練描述為“版權(quán)數(shù)據(jù)的洗錢”(money laundering for copyrighted data),這為分析生成式人工智能程序的吸引力提供了有效視角:它們讓你參與類似于抄襲的行為,但能規(guī)避與之相關(guān)的負(fù)罪感,因?yàn)樯踔吝B你自己也不清楚你正在抄襲。
有些人主張,大語言模型并非對(duì)其訓(xùn)練文本進(jìn)行數(shù)據(jù)漂洗,而是在從中學(xué)習(xí),就像人類作家從讀過的書中學(xué)習(xí)一樣。但大語言模型不是作家,甚至算不上是語言使用者。語言,顧名思義,是需要溝通意愿的交流系統(tǒng)。智能手機(jī)的自動(dòng)補(bǔ)全功能可能會(huì)提供優(yōu)劣不等的補(bǔ)全建議,但在任何情況下,它都不具備與用戶或信息接收方的交流意圖。ChatGPT可以生成連貫的語句,讓人們誤認(rèn)為其能夠以某種手機(jī)自動(dòng)補(bǔ)全功能無法實(shí)現(xiàn)的方式理解語言,但實(shí)際上它同樣不具備交流意愿。
很容易就能讓ChatGPT生成“我很高興見到你”等詞語序列。關(guān)于大語言模型的工作原理,我們?nèi)杂兄T多不解之處,但可以確定的是,ChatGPT實(shí)際上并不高興。犬類和前語言階段的幼兒都可以表達(dá)“很高興見到你”,盡管二者缺乏使用詞語的能力。而ChatGPT既無感知能力也無主觀意愿,這種意圖的缺失正是其事實(shí)上無法運(yùn)用語言的原因?!拔液芨吲d見到你”這句話之所以成為語言表達(dá)(linguistic utterance),關(guān)鍵并不在于語序通順的遣詞造句,而在于其承載的交流的意愿。
語言對(duì)我們來說輕而易舉,以至于我們往往忽視其建立在主觀感受和交流意愿的基礎(chǔ)之上。當(dāng)大語言模型生成連貫語句時(shí),我們很容易將自身體驗(yàn)投射其上,但如此我們將屈從于它的模仿游戲。就像蝶類進(jìn)化出碩大的黑色翅斑,以此讓鳥類誤認(rèn)為它們是大眼捕食者。[5]在某些情況下,黑色翅斑已經(jīng)足夠,此類蝴蝶被鳥類捕食的概率將顯著降低。而只要能得以生存,蝴蝶本身并不在意它免于淪為食物的機(jī)制。但事實(shí)上,蝴蝶與對(duì)鳥類構(gòu)成威脅的捕食者之間截然不同。
使用生成式人工智能輔助寫作的人可能聲稱,大語言模型是從訓(xùn)練文本中汲取靈感,但我再次強(qiáng)調(diào),這與我們通常所說的一個(gè)作家從另一個(gè)作家那里汲取靈感完全不同。試想某個(gè)大學(xué)生提交的論文完全由某本書中的五頁引文組成,且他聲稱該引文精確傳達(dá)了他的觀點(diǎn)并優(yōu)于他本人的原創(chuàng)表達(dá)。即使該學(xué)生完全向?qū)熖拱姿男袨?,這也不能說成是他從他引用的書中汲取靈感。大語言模型可以重組引文使其來源無法識(shí)別,但事情的本質(zhì)依然沒有改變。
正如語言學(xué)家艾米麗·M. 本德(Emily M.Bender)指出的,教師要求學(xué)生寫論文并不是因?yàn)槭澜缧枰嗟恼撐?。寫論文的目的是?qiáng)化學(xué)生的批判性思維能力。就像舉重訓(xùn)練對(duì)任何運(yùn)動(dòng)項(xiàng)目的運(yùn)動(dòng)員來說都十分重要一樣,寫論文培養(yǎng)了大學(xué)生無論最終從事什么工作都必備的技能。使用ChatGPT完成作業(yè)就像把叉車開進(jìn)健身房,那樣你的認(rèn)知能力永遠(yuǎn)不會(huì)提高。
并非所有寫作都需要富有創(chuàng)意、真情實(shí)感或者文采精妙,有時(shí)人們只是不得不寫。此類寫作可能服務(wù)于其他目的,如提升廣告流量或滿足行政需要。當(dāng)人們被要求寫作此類文本時(shí),采用能提高寫作速度的工具實(shí)屬情有可原。但這個(gè)世界會(huì)因?yàn)閷懳募敛毁M(fèi)力而變得更好嗎?拒絕使用大語言模型可能也不會(huì)讓生產(chǎn)低質(zhì)量文本的需求消失。但我認(rèn)為無可避免的是,越是用大語言模型來滿足此類需求,此類需求便會(huì)愈加膨脹。我們正在進(jìn)入這樣一個(gè)時(shí)代,用戶用大語言模型將條目列表轉(zhuǎn)化為文檔,接收者再用大語言模型將該文檔壓縮回條目列表。真的會(huì)有人認(rèn)為這是一種社會(huì)進(jìn)步嗎?
很可能終有一天我們將擁有能窮盡人類能做之事的計(jì)算機(jī)程序,但不同于推廣人工智能的企業(yè)所聲稱的,這并非在未來數(shù)年內(nèi)我們可以得見的場(chǎng)景。即使在與創(chuàng)造力完全無關(guān)的領(lǐng)域,當(dāng)前的人工智能程序也存在深刻的局限性,這讓我們有充分的理由質(zhì)疑其從根本上是否值得被稱為“智能”。
計(jì)算機(jī)科學(xué)家弗朗索瓦·肖萊(Fran?ois Chollet)提出了以下區(qū)別:技能是你執(zhí)行任務(wù)的表現(xiàn),而智能是你獲得新技能的效率。我認(rèn)為這精準(zhǔn)反映了我們對(duì)人類的直觀感受。大多數(shù)人經(jīng)過充分練習(xí)均可習(xí)得新技能,但我們認(rèn)為越快習(xí)得新技能的人越有智慧。這個(gè)定義的有趣之處在于——不同于智力測(cè)試——它也適用于非人類實(shí)體。當(dāng)一只狗迅速學(xué)會(huì)新技能時(shí),我們同樣認(rèn)為這是智慧的標(biāo)志。
2019年,研究人員開展了一項(xiàng)教老鼠學(xué)習(xí)駕駛的實(shí)驗(yàn)。研究者將老鼠放在帶有三根銅制操控桿的小型塑料容器中,當(dāng)老鼠前肢接觸對(duì)應(yīng)操控桿時(shí),容器可前進(jìn)、左轉(zhuǎn)或右轉(zhuǎn)。老鼠可以看到房間另一端的食物,并操縱小車朝食物駛?cè)ァQ芯咳藛T每次訓(xùn)練老鼠五分鐘,經(jīng)過二十四次練習(xí)后,老鼠已經(jīng)熟練掌握了駕駛技能。二十四次試驗(yàn)足以讓老鼠掌握一項(xiàng)在物種進(jìn)化史上可能從未遭遇的任務(wù)。在我看來這項(xiàng)實(shí)驗(yàn)是對(duì)何為“智能”的生動(dòng)演示。
現(xiàn)在我們來思考當(dāng)前備受推崇的人工智能程序。AlphaZero是谷歌DeepMind開發(fā)的程序,其下棋能力遠(yuǎn)勝任何人類玩家,但在訓(xùn)練期內(nèi)它經(jīng)歷了4400萬局對(duì)弈,遠(yuǎn)超人類棋手生命周期內(nèi)所能達(dá)到的對(duì)弈總量。要掌握一項(xiàng)新游戲,它同樣需要經(jīng)歷海量訓(xùn)練。根據(jù)肖萊的定義,由于AlphaZero這類程序新技能習(xí)得效率極低,所以其具備的是高水平技能而非智能。當(dāng)前如果程序員事先不了解任務(wù)信息,他不可能編寫出僅通過二十四次試驗(yàn)就學(xué)會(huì)簡(jiǎn)單任務(wù)的程序。

在國(guó)際象棋、將棋比賽中,AlphaZero輕易擊敗了人類世界冠軍。在圍棋比賽中,它也擊敗了人工智能AlphaGo Zero
經(jīng)過數(shù)百萬英里駕駛訓(xùn)練的自動(dòng)駕駛汽車仍可能撞上翻倒的拖掛式卡車,因?yàn)榇祟愂挛镌谄溆?xùn)練數(shù)據(jù)中并不常見,而人類駕駛員在上第一節(jié)駕駛課時(shí)就知道應(yīng)該停車。相較于解決代數(shù)方程的能力,應(yīng)對(duì)陌生情況的能力才是人類智慧的根本所在。計(jì)算機(jī)在獲得此種能力之前無法取代人類,而要獲得此能力仍然長(zhǎng)路漫漫。目前,我們尋找的只是那些增強(qiáng)版自動(dòng)補(bǔ)全技術(shù)能完成的工作。
盡管經(jīng)過多年炒作,生成式人工智能顯著提高經(jīng)濟(jì)生產(chǎn)力的能力仍僅存在于理論層面。(今年早些時(shí)候,高盛集團(tuán)[6]發(fā)布了一份題為《生成式人工智能:高投入,低回報(bào)?》的報(bào)告。)生成式人工智能最顯著的成就體現(xiàn)在降低人們的預(yù)期:既降低讀者對(duì)于文本質(zhì)量的預(yù)期,也降低作者在寫作時(shí)的自我預(yù)期。人工智能本質(zhì)上是一種去人性化的技術(shù),它將人視為低于人類本質(zhì)的次級(jí)存在,即僅僅是意義的創(chuàng)造者和理解者。人工智能減少了世界上的“意愿”。
一些人為大語言模型辯護(hù)時(shí)聲稱:人類口述與書寫的大部分內(nèi)容也并非原創(chuàng)。這雖是事實(shí),但并不重要。當(dāng)有人對(duì)你說“對(duì)不起”時(shí),過去其他人也曾說過“對(duì)不起”無關(guān)緊要,“對(duì)不起”三個(gè)字只是統(tǒng)計(jì)學(xué)意義上常規(guī)的文本序列也無關(guān)緊要。只要歉意發(fā)自內(nèi)心,即便曾有人表達(dá)過相同的道歉話語,道歉依然富有意義。同樣,當(dāng)你表達(dá)見到某人的欣喜時(shí),你就是在言說有意義的事物,即便這些話語缺乏新意。
類似的情況同樣適用于藝術(shù)。無論是創(chuàng)作小說、繪畫還是電影,你都投入了與觀賞者的交流之中。作品并非要與人類歷史上的每一件藝術(shù)品都截然不同才有價(jià)值。藝術(shù)的新穎性源于表達(dá)者本身、源于作者獨(dú)特的生活經(jīng)歷、源于其抵達(dá)觀者生命中的特定時(shí)刻。我們都是歷史的產(chǎn)物,但正是由于我們終生都在不斷與他者互動(dòng),我們才賦予世界以價(jià)值。這是自動(dòng)完成算法永遠(yuǎn)無法實(shí)現(xiàn)的,任何人都無法反駁。
(單位:孫佳賀,北京大學(xué)新聞與傳播學(xué)院;王洪喆,北京大學(xué)新聞與傳播學(xué)院)
注釋
[1]DALL-E,圖像生成系統(tǒng)。由美國(guó)科技企業(yè)OpenAI于2021年1月推出。
[2]“文生圖”程序:通過向人工智能程序輸入文字來生成圖像。
[3]高古軒畫廊(Gagosian Gallery)是享譽(yù)國(guó)際的現(xiàn)當(dāng)代藝術(shù)畫廊,在紐約、洛杉磯、舊金山、倫敦、巴黎、羅馬、雅典、日內(nèi)瓦、香港及巴塞爾等10座國(guó)際城市總計(jì)設(shè)有19個(gè)展覽空間。
[4]Hallmark(賀曼公司)在1910年由Joyce Hall 創(chuàng)立,經(jīng)過百年發(fā)展,Hallmark的業(yè)務(wù)更加多元化,包括賀卡、文具、服裝、寢具、化妝品、電子賀卡、電腦軟件、數(shù)碼娛樂、電視頻道等,遍布包括中國(guó)在內(nèi)過百國(guó)家。
[5]黑色翅斑可以模擬猛禽的眼睛。
[6]高盛集團(tuán)(Goldman Sachs)是一家成立于1869年的美國(guó)銀行控股公司,為企業(yè)、金融機(jī)構(gòu)、國(guó)家政府及高凈值個(gè)人提供各種金融服務(wù)。


