tft每日頭條

 > 圖文

 > 産生算法偏見的因素

産生算法偏見的因素

圖文 更新时间:2024-09-16 15:46:24

本文刊載于《三聯生活周刊》2020年第36期,原文标題《算法,隐藏的偏見》,嚴禁私自轉載,侵權必究

人類是容易出錯和帶有偏見的,但這并不意味着算法一定能夠做得更好。

記者/陳璐

産生算法偏見的因素(算法隐藏的偏見)1

2019年在倫敦巴比肯藝術中心的展覽“人工智能

一場全球關注的算法争議

不久前,推特上發生了一場備受人工智能界關注的論戰,其原因是被指帶有“嚴重種族歧視”的PULSE算法。這場長達兩周的激烈讨論,最終以圖靈獎得主、深度學習先驅楊立昆(Yann LeCun)宣布退出推特而告終。

PULSE算法是杜克大學推出的一項用于升級低分辨率圖像的人工智能技術,可以在幾秒鐘内令一張模糊的照片變得清晰,效果極佳。但PULSE算法并不是真的消除了馬賽克,而是利用英偉達(NVIDIA)公司的StyleGAN算法,生成一張全新的高分辨率圖像,再降低它們的分辨率,與低分辨率的原圖對比,最終找出匹配程度最高、最接近原圖的高清圖像輸出到用戶面前。

然而,當杜克大學将利用PULSE算法開發的軟件“Face Depixelizer”發布到網上時,人們很快發現其中的種族偏見問題。6月20日,一名網友在推特上指出,他在使用Face Depixelizer對美國前任總統奧巴馬的低分辨率圖像進行處理後,生成的照片變成了一張白人男性的樣子。同樣地,輸入華裔女演員劉玉玲和拉丁裔美國會女議員亞曆山德裡娅·奧卡西奧-科爾特斯的圖像後,得到的面孔也明顯看起來都是白人。正如奧巴馬一條被廣泛引用的推文所言:“這張照片充分說明了人工智能中偏見的危險。”

楊立昆也參與到這場讨論中,他回應道:“當數據有偏差時,機器學習系統就有偏差。這個面部采樣(upsampling)系統讓每個人看起來都像白人,是因為系統是在FlickFaceHQ上預先訓練的,它主要包含了白人的照片。若用來自塞内加爾的數據集訓練同樣的系統,每個人都會看起來像非洲人。”

谷歌人工智能科學家蒂姆特·格布魯(Timnit Gebru)是一名非洲裔美國人,她表示對楊立昆的言論感到“失望”。格布魯多年來一直倡導人工智能領域的公平和道德,因倡導消除面部識别系統和其他人工智能算法中的種族和性别偏見而聞名。她和麻省理工學院的計算機科學家喬伊·博拉維尼(Joy Buolamwini)領導的一項名為“性别陰影”(Gender Shades)的項目顯示,商用面部識别軟件更容易對深色皮膚的女性進行錯誤分類,準确率也更低。針對深色皮膚女性的平均錯誤率達到35%,遠高于對淺膚色男性0.8%的平均錯誤率。

對此,楊立昆回答說,他的評論是針對PULSE算法中關于模型和數據集的特殊情況,“偏見的後果在已發布的産品中比在學術論文中要嚴重得多”,他還暗示需要更謹慎選擇數據的不是機器學習的研究人員,而是工程師。但格布魯認為他的分析忽略了PULSE算法背後暴露的根本問題,“你不能僅僅減少由機器學習導緻的對數據集偏見造成的傷害”。

楊立昆和格布魯長達一周的互動吸引了成千上萬的點贊、評論和轉發。

與此同時,杜克大學PULSE算法研究小組也更新了他們的論文,并補充道:“總體而言,從StyleGAN樣本中發現的白人面孔要比有色人種多。”研究人員引用了2020年4月一篇關于人為生成的面部圖片中人口統計學偏見的論文:“結果表明,在生成的圖片中有種族偏見,其中近三到四成(72.6%)的圖片代表白人。亞裔(13.8%)和黑人(10.1%)的比例要低得多,印度人隻占很小一部分(3.4%)。”

産生算法偏見的因素(算法隐藏的偏見)2

圖靈獎得主、深度學習先驅楊立昆

實際在2018年,亞馬遜利用人工智能技術開發的一款新招聘引擎也曾被卷入關于性别歧視的争議中。這套系統最初的目的是通過人工智能對簡曆進行評分,完成高效率、自動化的人才篩選。然而不久後,研究小組發現該系統并沒有以性别中立的方式對候選人進行打分。當算法讀取到與“女”相關的詞語時,會降低簡曆的權重,并更多地向“執行”“攻克”等男性求職者簡曆中的高頻詞傾斜。這是因為算法所依賴的原始曆史數據,本身就帶有對性别的偏見。

然而,在線教育平台Coursera的聯合創始人吳恩達(Andrew Ng)在一篇博客文章中指出,即使是無偏見的算法也可能導緻有偏見的結果。例如,即便使用完全公正的數據建立一個人工智能系統,幫助借款人優化發薪日貸款的利率,但因為這些高利率貸款的性質和用途,仍會對黑人社區造成極大傷害。發薪日貸款是一種無擔保的短期貸款,通常要求借款人在下一個發薪日償還本金和利息,利率通常很高。發薪日貸款的目标人群是低收入人群,在美國,黑人社區使用發薪日貸款的比例很高。

在數據科學領域研究超過10年的盧卡·馬薩羅(Luca Massaron)認為,盡管從技術角度來看楊立昆所說的完全正确,但網上的反應很大程度上說明這個問題對公衆來說是多麼敏感,“人們普遍擔心不公平的控制和操縱,進而無條件地,甚至毫無理由地懼怕人工智能會剝奪他們的自由,而不僅僅是他們的工作”。在馬薩羅看來,比起Face Depixelizer這類軟件,他害怕的是那些無法識别和挑戰偏見的應用程序。

無處不在的“編碼凝視”

在中國,算法偏見的表現形式與歐美不同,近年來最引人關注的事件是“大數據殺熟”。2018年時,不少消費者發現,網絡購物、交通出行、在線購票等不同領域的電商平台都存在“殺熟”的情況,新老客戶搜索到的同款商品價格不同。這些平台通過大數據分析消費者的消費偏好、消費習慣和收入水平等信息,将同一商品或服務以不同的價格賣給不同的消費者,從而獲取更多利潤。

然而,調查過程中,平台方都堅稱自己對所有用戶的報價一緻,不同的價格是基于拉新活動的優惠不同所緻,并非隐性的大數據“殺熟”,所以調查最後都不了了之。但研究顯示,手機型号、消費場所和消費頻率等因素确實影響着用戶搜索内容和消費産品的價格,比如對蘋果用戶定制的價格通常比安卓用戶更高;位置也影響着價格,比如同樣距離,在騰訊公司門口的打車價格可能會比旁邊便利店的打車價格高;消費頻率高的用戶對價格承受能力強,也會得到一個較高的價格。

這種偏差是如何造成的?這就需要首先了解算法是如何通過大數據計算出最終結果的。

加拿大蒙特利爾學習算法研究所(MILA)博士劉光亮的解釋令人印象深刻。他在采訪中對我形容道,在處理數據過程中所使用的算法模型,就好比最簡單的數學函數y=x,直接穿過坐标軸上的原點,是條完美曲線;但因為數據受到各種不同因素的影響,往往充滿噪聲,實際産生的結果可能是y=x k,導緻函數沿着y軸偏離了k個單元。所以算法工程師實際在構建這個數學模型時,會告訴計算機這個k是什麼,讓計算機故意算錯,從而在計算過程中消除由于數據帶來的偏差。這個k在機器學習中被稱為“偏置”(bias),算法工程師需要考慮一系列與結果相關的偏置問題,将其用變量x告訴計算機,從而得出需要的正确結果。x在這個過程中即所謂的“特征”。

在打車軟件有關位置的偏差中,劉光亮認為,這是一個非常容易解決的算法偏見問題,工程師隻需要告訴模型它需要考慮有關“位置”的特征,就可以消除偏見。但在實際操作過程中,因為這種偏見可以帶來巨大利潤,并且騰訊的員工可能能夠報銷打車費用,或者因為薪水豐厚對幾塊錢的差别并不是很在意,所以這種偏差往往被算法放大了。

不過,劉光亮向我強調,“如果是用戶産生的偏差就很難控制”。比如在搜索引擎的算法中,同樣搜索“蘋果”,有的人是為了搜索蘋果電腦,有的人是為了搜索蘋果這種水果,但計算機如何知道該給你推薦什麼?由于搜索系統往往缺乏用戶數據,沒有辦法刻畫用戶畫像,所以當它發現今天搜索蘋果電腦的人更多時,就會給所有搜索“蘋果”的用戶推薦蘋果電腦,但這對于搜索蘋果水果的人并不是正确結果。

曾先後就職于數個互聯網大廠的算法工程師李想告訴本刊,即便同樣是商品搜索,在垂直搜索和非垂直搜索中的流程也大不一樣。比如人們在淘寶中輸入某個關鍵詞,系統顯示的肯定是商品。但在抖音或快手等視頻軟件中,會存在一個判斷這個關鍵詞是否是商品的過程,因為用戶可能想找的是視頻,也可能是商品。所以算法工程師首先要給模型100萬條關鍵詞的數據去學習,先把其中意圖非常不清晰的詞過濾掉,然後人工對數據進行标注和分類,用0和1來判斷這些詞語是否與商品有關。在判定該搜索關鍵詞達到某一概率比如60%以上是商品後,才進入通常的商品搜索流程。

内容産品的推薦也與此類似。如何從1000萬個不同内容産品中找出用戶喜歡的10個?李想解釋,簡單而言,首先是根據用戶興趣或者行為與内容進行匹配,比如最近用戶點贊了某個産品,或者在列表中的某個産品上停留的時間較長,就會給他匹配同屬一個類别的産品。其次,也會考慮産品本身的熱度,如果産品本身熱度高,它的權重就會高,更容易被更多人看到,這顯然令那些最符合大衆口味的産品能夠占據榜單。另一方面,對于新上的産品,平台在對其未來的播放量、點擊率等數據做一個預估後,對預測高的産品會有一個保量機制,在列表前100個位置留出10個給這些産品。

如何對新産品進行預測?一方面是根據發布者的信息,比如他過往産品的流量、粉絲數;另一方面則是通過對内容的判斷。平台會對這産品做一些關鍵信息的抽取,通過機器學習的方法進行運算,最終得出一個有關産品内容的評分。“這其中涉及到許多有關特征的問題,具體如何運算通常是一個非常‘黑盒’的事情,個人很難解釋最終結果是怎麼算出來的。”李想在采訪中謹慎表示,對于大型平台的模型,往往會錄入幾千幾萬個特征進行運算,對于企業而言,使用了哪些特征是核心機密。而為了獲取這些特征,往往要進行更多的對照組實驗判斷具體某個變量所能帶來的影響。

如果這些特征并沒有涉及到種族、性别的偏見問題,那麼它們得出的結果就是公正的嗎?2019年,牛津大學互聯網研究院的學者桑德拉·瓦赫特(Sandra Wachter)在一項關于“新興技術治理”的研究報告中指出,這實際上是一種“連帶歧視”。廣告商們以貌似中性的特征将用戶分成不同的人群去提供不同的産品、價格與服務。但這些看似中立的信息,卻存在被濫用的風險。

比如一個有關貸款的商業算法模型,将養狗和按時償還貸款之間建立正相關聯系,認為養狗的人群按時還款的概率更高,因此會将“養狗”作為一個中性變量,優先對這部分人群放貸。這是因為在英國,如果沒有房子,住在出租屋裡,大多數房東不允許養狗,所以這實際上是對無房産的人口所産生的歧視。但從法律角度來看,人們很難對這樣做的公司提起訴訟,因為他們幾乎很少意識到自己因為“養狗”這個信息被區别對待。因此比起性别、種族等,“連帶歧視”以更加隐蔽的形式存在。

麻省理工學院的計算機科學家、“算法正義聯盟”的創始人喬伊·博拉維尼将算法偏見稱為“編碼凝視”,認為當算法被不斷增加作為支持決策制定的方法時,盡管為效率的提升帶來了機會,但也随之産生關乎不公和歧視性結果的風險。算法偏見看起來如此不透明的原因之一是,我們通常無法分辨它何時發生。因此公衆有責任要求算法公開、透明,知道是哪些因素對決策的結果産生影響,才有可能理解這個黑盒。

(文中李想為化名)

更多精彩報道詳見本期新刊《你有偏見嗎》,點擊下方商品卡即可購買 ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved