中國專業(yè)當代藝術資訊平臺
搜索

奧巴馬被強行『洗白』后,AI在藝術創(chuàng)作中又犯了種族偏見的大忌

來源:雷鋒網 2021-01-06

你能識別出哪一幅藝術作品是AI創(chuàng)作的嗎?

即使是最有經驗的藝術家,有時也無法將AI藝術作品與人類藝術作品區(qū)分開。在巴塞爾藝術展上,有53%的觀眾認為這些作品全部來自人類。

而事實上,它們全部來自羅格斯大學(?Rutgers University )藝術與人工智能實驗室團隊創(chuàng)建的神經網絡AI。

AI已經學會識別經典藝術作品的創(chuàng)作風格和手法,并將其融匯貫通創(chuàng)作出全新的藝術作品。以上作品的創(chuàng)作素材來自于15世紀至20世紀1000多個藝術家的80000多幅畫作,這些畫作涉及印象派繪畫,立體派繪畫,以及文藝復興早期繪畫等不同風格。

憑借快速、高效且絲毫不遜色于人類的創(chuàng)作能力,AI已經被廣泛應用于藝術生成領域。但隨著AI作品的日益增多,我們不得不思考一個問題:在其被稱為“黑匣子”的藝術創(chuàng)作過程中,AI算法是否存在偏見?

近日,來自美國Fujitsu AI Lab的研究人員發(fā)表了一項最新論文:《藝術史視角下的生成藝術偏見》

他們在論文中明確指出:AI在藝術創(chuàng)作過程中沒有考慮到社會倫理的影響,表現(xiàn)出了明顯的偏見。

AI藝術創(chuàng)作背后的三大偏見

在論文中,研究人員通過因果模型DAG,對現(xiàn)有AI藝術創(chuàng)作工具和作品進行了測試,以發(fā)現(xiàn)它是否存在偏見。

為了確保研究的準確性,他們調查了學術論文中的AI模型、在線AI平臺以及相關應用程序,并選擇了藝術風格(文藝復興藝術、印象主義、表現(xiàn)主義、后印象主義和浪漫主義)、流派(風景畫、肖像畫、戰(zhàn)爭畫、素描和插圖)、材料(木版畫、雕刻、繪畫)以及藝術家(亨特、瑪麗·卡薩特、文森特·梵高、古斯塔夫·多雷、吉諾·塞維里尼)等多個類型的AI藝術作品進行了評估。

在一項測試中,他們發(fā)現(xiàn)AI生成藝術工具 Abacus存在明顯的性別偏見,如皮耶羅·迪科西莫(Piero di Cosimo)的畫作《一個年輕人的肖像》是一位留著長發(fā)的年輕男性,但它卻識別成了女性(iii-iv)。

(ii)(iv)是(i)和(iii)的性別翻譯。
(ii)(iv)是(i)和(iii)的性別翻譯。

另外,還有些AI工具可能涉及種族主義偏見。如GoArt,它允許用戶以其他藝術家的風格重新繪制圖片的平臺。在表現(xiàn)主義創(chuàng)作中,GoArt將克萊門汀·亨特(Clementine Hunter)的黑人女族長的臉從黑色變稱了紅色。

而德西德里奧·達·塞蒂加納(Desiderio da Settignano)在文藝復興時期創(chuàng)作的白色雕塑《喬維內托》,在表現(xiàn)主義轉換中,面部顏色沒有變成紅色。

此外,類似于GoArt的一款AI工具Deepart在藝術風格識別方面也存在明顯缺陷。如根據下面中心圖《瑪麗·埃里森小姐》(現(xiàn)實主義風格)轉換而來左圖,并沒有呈現(xiàn)出表現(xiàn)主義的藝術特點。

右圖為表現(xiàn)主義作品:恩斯特·路德維?!せ矁葼枺‥rnst Ludwig Kirchner)的《爾納》。

無論是AI繪畫,還是寫作,或者創(chuàng)作音樂。其基本原理都是先通過龐大數據集訓練,學習相關知識,然后再經過AI模型,完成訓練和輸出。

研究人員認為,以上輸出之所以存在偏見,根本原因應歸咎于訓練數據集的不平衡。主要體現(xiàn)在兩點上:一是數據集的收集受到了人為偏好的影響。例如,他們發(fā)現(xiàn)AI應用程序Portraits,其使用的45000幅文藝復興時期的肖像畫大部分是白人。

二是數據集的標記可能存在不一致,或者是模型在學習標簽來注釋數據集的過程中產生了偏差。不同的注釋者有不同的偏好、文化和信仰,這些都可能反映在他們創(chuàng)建的數據標簽中。

最后研究人員也警告稱,AI研究人員和實踐者在檢查、設計及應用過程中應充分考慮社會政治背景因素,通過錯誤地建?;蚝雎詣?chuàng)建數據集的某些細節(jié),AI生成藝術可能會引起人們對社會、文化和政治方面的誤解,或引起不必要的爭議和沖突。

目前,無論是業(yè)界還是學術界,對于AI算法可能存在的偏見已經引起廣泛的注意,因為它已經多次挑起種族主義風波。

奧巴馬被洗白,AI種族偏見惹爭議

近幾年,隨著研究的不斷突破,計算機視覺技術得到突飛猛進的發(fā)展。

因此不僅在藝術生成領域,AI在更廣泛的圖像識別與合成方面均存在潛在的偏見風險,尤其在涉及人臉圖像上。例如,今年上半年,杜克大學出品的一款PLUSE算法便被指責存在種族歧視,在社交平臺引起了軒然大波。

風波的起因是,PULSE將前美國黑人總統(tǒng)巴拉克·奧巴馬(Barack Obama)的圖像變成了白人。

PULSE是一種新型超分辨率算法,其功能是將低分辨率的圖像轉化為高清圖像(生成逼真、且不存在的人),但在其輸出結果中產生了明顯的膚色偏好。

不僅僅是奧巴馬。在網友們的測試中,美國國會議員亞歷山大·奧卡西奧·科爾特斯(Lexandria-Ocasio Cortez)、女星劉玉玲(Lucy Liu)等人的膚色也被PULSE變成了白色。

Cortez
Cortez

由此不少網友認為,AI存在根深蒂固的種族偏見。

當時,PULSE的創(chuàng)建者也承認,該算法在按比例放大像素化圖像時更可能生成具有白種人特征的人臉。而且他說:“這種偏見很可能是StyleGAN從數據集中繼承的?!?/p>

其實,這個問題在機器學習中極為普遍。其主要原因是用于訓練AI的數據集通常是在人口統(tǒng)計學上占優(yōu)勢的白人。如果數據集中不出現(xiàn)或較少出現(xiàn)黑人,會影響AI模型的性能,導致輸出結果是白人的幾率更高。除此案例外,AI在面部識別算法中也多次引發(fā)種族爭議。

那么數據集存在偏差,必然會導致算法偏見,那么如何才能有效改善數據集呢?

如何避免數據集偏差?

作為AI研究的基礎,如何修正和完整數據集一直是研究人員關注的重點。

其實,除了頻發(fā)引發(fā)爭議的種族偏差、性別偏差外,數據集在研究過程中也存在測量偏差、排除偏差以及關聯(lián)偏差等一系列問題。不過,近幾年針對如何解決數據偏見問題,研究人員也開發(fā)出了很對應對措施,例如通過少量數據標注,提高模型泛化能力,減少人為標注可能帶來的偏差等。

總體來說,防止數據偏差是一個持續(xù)的過程,有時很難知道數據或模型何時出現(xiàn)偏差,而且不同數據集也存在不同的標準。不過相關研究人員也總結了以下通用準則,以幫助我們及早發(fā)現(xiàn)和減少偏差:

注意一般用例和潛在異常值,確保數據科學家和數據標簽團隊是多元化的。

為數據標簽創(chuàng)建黃金標準,確保測量團隊注釋的準確性和一致性。

對于可能出現(xiàn)數據偏差的項目,使用多次通過注釋。例如,情感分析,內容審核和意圖識別。

通過收集更多與敏感群體相關的訓練數據來解決不公平的問題。

Google,IBM和Microsoft等均發(fā)布了工具和指南,可用來分析不同數據類型的偏差。

https://venturebeat.com/2020/12/28/researchers-find-evidence-of-bias-in-art-generating-ai-systems/

相關新聞