AI生成圖像:在月球上行走
■蔣澍(江蘇省攝協新文藝群體工作委員會秘書長)
在今年的全國兩會上,科技部部長王志剛在兩會“部長通道”對媒體表示:“ChatGPT之所以引起關注,在於它作為一個大模型,有效結合了大數據、大算力、強算法……總的來講,人工智慧是大方向、大領域,它的影響絕不僅僅在科技領域本身。”
2022年11月30日,美國OpenAI公司發佈的智慧對話大模型産品ChatGPT開始風靡全球,僅兩個月,活躍用戶就超1億,並引發科技巨頭間的爭奪。而ChatGPT的對話體驗引發人們對AI即人工智慧未來能力的重新認識,人們對ChatGPT和以ChatGPT為代表的這一波AI新浪潮能做什麼極為關注。如果參照歷史,我們會看到每次技術飛躍都會給社會帶來巨變,也會帶來陣痛。AI的發展,使得我們正站在這樣一個節點,未來的社會分工和結構將會發生更大的變化,而身處其中的我們都會被深刻地影響。尤其是在塑造人的精神世界的藝術領域,處在一個即將被劇烈顛覆的前臺,文藝從業者自身必須積極改變以適應這樣的一個位置。
AI進軍此前被視為“人類獨佔”的領域——藝術表達。最初AI的滲透是緩慢的,但在這半年多時間可謂逐漸形成了一場搶奪戰。2022年9月,傑森·艾倫在科羅拉多州博覽會藝術展上提交了一件名為《太空歌劇院》的藝術作品,該作品是使用人工智慧工具創作的,獲得了數字藝術照片類別比賽第一名。允許提交作品的評委並不知道這是人工智慧生成的,但在它獲勝並且眾所週知它是由AI生成後,所獲獎項並沒有被評委撤回。為什麼?因為之前的規則中沒有任何規定提及AI作品不能參賽,真正的反對來自社交媒體和憤怒的藝術家,一些人要求艾倫歸還他的獎項並公開道歉。艾倫的回應是:“人工智慧是一種工具,就像畫筆是一種工具,工具背後還需要一種創造力。”有更多的人歡迎這種對話,科羅拉多州農業部的傳播總監表示,很高興這個擁有150年曆史的博覽會成為“討論藝術的一部分”。這個新聞事件在這個歷史時刻具有特別重要的意義,意味著AI開始對藝術産生影響。AI作品是否構成藝術?藝術家受到這種新形式的威脅,是否應該接受它?這個新聞事件可能會推動人工智慧生成內容(AIGC)作為藝術的一種形式,並幫助人類的思維轉變。
AI生成圖像:在喝水的大象
AI圖像生成技術的工作原理是訓練兩個神經網絡:一個生成新圖像的生成器網絡,一個試圖區分真假圖像的鑒別器網絡。通過這些網絡之間的競爭和協作過程,AI可以生成在風格和內容上與它們接受訓練的圖像相似的新圖像,通過文本的輸入,使用計算機算法來創建圖像。這種通過文本生成圖像的方式與傳統的圖像生成技術之間的主要區別之一是所需的人類參與程度,傳統技術通常需要大量的手動輸入和用戶的專業知識來創建和完善圖像,而AI圖像生成幾乎不需要人工干預。
用通俗的比喻解釋一下AI圖像生成的工作原理:程序首先會設計兩個角色——一個為生成器,一個為鑒別器。打個比方,有一個瓷器店,瓷器店裏做瓷器的小夥子叫小張,我們把他叫生成器,瓷器店除了老闆,還有一個夥計是負責鑒定的叫老李,我們把他比作鑒別器。有一天老闆接了一個訂單,一個客人説要訂一批倣同治年間的青花瓷瓶,大概高50厘米。既然是倣品,就得是一模一樣的。隨後老闆就把夥計小張叫來了,讓小張去後場製作,然後又吩咐老李,讓他盯緊,出來的東西一定要和同治年間的花瓶一樣,要符合客人的規定。這個叫小張的夥計就開始做了,其實他之前也沒做過,也不懂,因為是老闆佈置的任務,必須做。鑒定師老李很聰明,跑了圖書館、博物館、大學,去查資料,然後搞清楚了,積累了1000件青花瓷瓶相關的資料,知道了青花瓷瓶應該做成什麼樣的。小張做出來了第一個,老李説這個不對,給我砸了重來。他給小張提了很多意見,應該如何如何,小張按照他的要求再去做第二個。第二個做好後,老李也沒正眼看一下,説還是不行,也給否定掉了,同時也提了很多建議。在這個過程中,小張在不斷地積累經驗,兩人經過了幾百次的交流、磋商,這麼一來一回,終於有一天,小張帶著花瓶再來給老李看,老李一看是這麼回事了,説這個可以了,然後拿給老闆看,老闆説行,我們可以賣了。最後交貨時客戶相當滿意,跟同治年間的青花瓷瓶幾乎是一樣的,可以以假亂真了,這個過程就完成了。在這個過程中,我們講的鑒定器,就是老李,老李有1000件的資料,我們叫作數據量。如果他有100000件資料的時候,積累的經驗、鑒定水平要比1000件時的鑒定水平高得多,也就是説鑒定器是建立在數據量基礎上的。同樣小張也有一個積累的過程,兩個人相互訓練,隨著訓練加深,生成器在生成逼真圖像方面逐漸變強,而辨別器在辨別真偽上逐漸變強。當辨別器無法區分真實圖片和偽造圖片時,訓練過程達到平衡。這一套操作系統就叫“生成對抗網絡”。
相比于AI圖像生成的原理,我們更關注AI的應用。早些時候,我對一些AI圖像生成平臺進行了測試,圖像生成從攝影、繪畫、創意、設計這四種方面進行,從陌生到熟練,在得到了大量的圖像和數據後,我們來分析一下它們的表現。
在攝影方面,在我給出具體的描述性文本後,AI圖像生成器就可以生成多個高質量的圖像,輸出的質量取決於我輸入的文本,文本越具體越細緻,圖像的逼真度越高,而這個過程僅僅需要十幾秒的時間。生成的攝影圖片,按攝影的內容分類:紀實攝影、風光攝影、動物攝影、植物攝影、人像攝影、工業攝影、靜物攝影、運動攝影等等,它們可與相機拍攝的照片相媲美,細節、紋理、畫面結構、色彩高度逼真,非常有説服力,如果不註明是AI生成的,基本無法區分。
繪畫是一項對天賦有所要求、需要日積月累練習才能習得的技藝,AI圖像生成可以被簡化成一種與機器進行圖文交互的“盲盒遊戲”。所需要做的,就是用文本輸入自己想象中的作品的關鍵詞,快則十幾秒,AI就能拿出一幅幅不同風格和流派的作品。今天AI製造出來的“畫”已經達到很驚人的程度,在我看來已經很接近人類繪畫的水平,而AI繪畫的速度,是人類望塵莫及的。
AI在建築外觀設計、空間設計、室內裝飾設計、平面設計、服裝設計等領域,同樣有著不俗的表現,可以根據文本的定義生成大量風格和質量一致、比較複雜的圖像,未來一定會成為設計師的強大工具,並簡化設計師的工作流程。當然,前提條件是設計師必須熟練使用複雜、規範的文本。
而在創意方面,只要有足夠的想象力和靈感,運用合理的文本描述, AI就能解放雙手,生成那些突破現實邏輯的“有趣”回答,圖像獨特而新穎,可以帶來意想不到的驚喜。
AI生成圖像:偶得湖山趣不知城市喧
AI的圖像生成,是基於人的參與,包括人的創作力、想象力、創作動機和對最終效果的預設等等,在圖像視覺領域,它的能力已超出了我們的預判。目前,AI圖像生成仍然存在很多局限性,主要表現在:其一,因為數據容量和傳輸的問題,目前AI生成圖像的精度不高,遠遠達不到目前主流數碼相機和大尺幅打印輸出的像素要求。其二,AI算法是通過分析大型數據集來學習,高質量的、應有盡有的數據集目前尚不可能,尤其在攝影環境中,高質量圖像可能更難以獲得,所以AI生成的圖像往往會有很大偏差。比如,數據集只包含某一種族人群的圖像,那麼生成的圖像也會反映這種偏差,就可能會延續諸如有害的種族偏見和刻板印象等。其三,AI通過人工輸入文本來創建圖像,文本描述的準確性、詳細性直接導致圖像生成的精準,藝術家需要大量的文本訓練。對一些相對簡單的文本,目前AI圖像生成器還不是很精確,在一些意料之外的情況下,程序可能無法充分執行。其四,在專業較強的領域無法保證準確率。其五, AI算法生成結果具有不確定性,尤其是對一些細節把控不足,這對於創作有著清晰願景的藝術家來説,可能會令人沮喪。其六,因為AI生成的圖像是基於預先存在的數據集和學習模式,雖然AI可以生成獨特的圖像,但這些圖像缺乏真正的原創性,如果被過度使用,可能導致風格同質化以及個性的喪失。此外,AI難以修改生成的圖像,並且缺乏具有影響力的情感深度。更為突出的問題是,AI圖像生成過程中,學習、參考和借鑒了大量網絡上已有的圖像,而這些圖像都是有版權的。AI圖像生成器在學習和借鑒前,並沒有得到這些圖像版權所有人的允許。因此,不能排除潛在的侵犯知識産權的可能性,無論是否有意。
人類採集信息的目的是為了輸出決策,而輸出的決策跟我們的目標是有關的,還與我們的價值觀有關。人類整體有一些共性,但每個人都有自己非常獨特的部分,對事物的認知是來自於各自人生過去的經驗,這裡一定會包含某種價值體系,而AI是很難産生真正的價值體系的,所以它只能是我們人類使用的工具。當AI來臨的時候,因為它很強大,我們的第一反應往往是害怕,所以首先思考的是怎麼能不被它取代,或者不被它毀滅。但事實上,當人類擁有了如此強大的工具時,可以使人類的文明邁上怎樣的新臺階,哪些工作能得到優化和輔助,其實對這種方向的問題更要有所思考,而不僅僅是思考有關生存的問題。AI和人腦的一個根本區別在於,它只能從過往獲取“組合式”答案,是對人類社會知識的整理,是在現有知識的基礎上進行二次加工的産物,並不能突破人類認知的邊界去創造內容。雖然説智慧機器人能作“畫”,但它還離不開人發佈的指令,所以,完全離開人,AI還是不能完全獨立製作出圖像來的。
隨著AI技術的快速提升,AI圖像生成會改變我們創建和消費視覺內容的方式,它很快也會成為我們的助手,而將人工智慧融入創作過程需要藝術家角色的積極轉變,藝術家必須學會與AI算法協同工作,充分利用人類創造力和AI生成的結果的優勢。
(本文圖片均由本文作者蔣澍製作並提供)