美國司法部和11個州2020年10月20日宣布對谷歌公司發起反壟斷訴訟,
指控其在搜索及搜索廣告市場非法抑制競爭以維護壟斷地位
當設計者將自身固有的社會成見植入規則中時,演算法在反映這種偏見的同時,也可能會放大歧視傾向。
《環球》雜志記者/胡艷芬
不知從何時起,人們開始信奉“數據宗教”(以色列歷史學家尤瓦爾·赫拉利的提法),認為相對于單憑人自身,人類借助演算法、模型、機器學習等數學方法能夠重塑一個更加客觀的現實世界。
這恐怕是大部分人都會産生的偏見:演算法決策更公平,因為數學關乎方程,而非膚色、種族、性別,而人類決策因為受到許多固有觀念、有意無意的偏見及資訊不充分等因素影響,其決策結果難以公正。
然而,無法忽略的演算法歧視或者侵權現象,讓人們不得不正視幾個關鍵性問題:演算法是由誰設計的?人類設計者能確保演算法公正嗎?公正又是什麼,有精確的量化標準嗎?演算法所使用的數據量夠充分嗎?數據有沒有被“污染”?……終究,演算法依然逃脫不了人類社會的魅影,演算法背後的人、利益團體以及演算法規則的不透明性、數據使用的局限性等等,都限制著演算法的客觀和公正。
男性主導的演算法
現在的人們比以往更關注從事演算法相關工作人士的性別比,因為這關乎演算法性別歧視這個敏感話題。
在美國田納西州長大的亞裔女性愛麗絲,憑借自己的能力考入以白人為主的學校,進入“高級班”,她身邊的同學主要來自中上層家庭。後來她考上了哈佛、牛津、耶魯等精英大學,並專門從事演算法公平性方面的研究。她説,在田納西州長大的經歷,讓她認識到標簽和類別“可能無法充分反映個體的復雜性和潛力”。
很快愛麗絲發現,她的同事中很少有女性或少數族裔。長期以來,從事技術工作的女性相比男性要少得多,尤其是在人工智慧領域。根據2018年領英網和世界經濟論壇的分析,機器學習研究人員中只有12%是女性,女性在全球人工智慧專業人員中僅佔22%。愛麗絲擔心,“可能有一天,雇用我們,支配我們的醫療,在審判中決定判決的技術,幾乎完全會從白人、受過良好教育的男性角度來設計。”
以亞馬遜公司為例,根據公開數據,該公司的整體員工構成以男性為主。而從路透社整理的自2017年起的數據得知,在谷歌、蘋果、微軟、臉書這類科技公司中,男性平均佔比達2/3,尤其是技術崗位,男性比例接近4/5。
當長期以來用來描述員工構成的“簡歷數據”被亞馬遜用來訓練招聘員工的演算法,結果可想而知——亞馬遜公司在2014年開發的用來篩選簡歷的“演算法篩選係統”,對男性應聘者表現出明顯的偏好。可以説,演算法本身並無所謂歧視,它的歧視是從人類社會習得的。
另一個問題接踵而至,當演算法掌握在某些男性手中,會不會使滿足特定男性需求的歧視性、侮辱性、侵犯女性權利的産品應運而生?會,而且事實已在眼前。
2019年6月底,可以“一鍵脫衣”的應用程式DeepNude在網上受到追捧。這一應用借助神經網絡技術,只需要上傳一張女性照片,即可自動“脫掉”衣服,偽造出逼真的裸照。這款應用上線僅幾個小時,下載量就突破50萬次。吸引用戶的“一鍵脫衣”效果是利用“深度偽造”技術實現的,即利用深度學習演算法,實現音視頻的模擬和偽造。
雖然DeepNude已在輿論批評聲中下架了,但令人擔憂的是它又出現在了即時消息應用程式Telegram中。一項來自美國網絡安全公司Sensity的調查顯示,截至2020年7月底,Telegram平臺7個主要頻道均在使用DeepNude軟件,其使用者甚至還在Telegram上成立了社區,社區成員超過10萬人。
目前DeepNude已經産生了68萬以上女性的假裸照,Telegram平臺公開發布了約10萬張色情圖片,最令人感到恐懼的是,這其中70%的圖片來自社交媒體或私人渠道中分享的真實女性包括未成年人的圖片。這意味著,人們日常在臉書、微博等社交媒體中分享的正常自拍照,有可能被人用來生成裸照。
更引起人們關注的是,這一軟件由掌握演算法技術的男性開發,且只針對女性。這位開發者化名阿爾貝托,他表示,軟件是由開源演算法pix2pix創建,訓練數據僅為1萬張女性裸圖。
pix2pix開源演算法本身並無所謂善惡,在技術人員看來,它甚至是一種非常有趣的圖像到圖像的轉換策略,但它一旦被懷有惡意和私利的人利用,就會産生惡劣而危險的後果。
《如何輸掉資訊戰》一書的作者尼娜·揚科維茨表示,DeepNude這款應用對世界各地的女性都有巨大的影響,尤其是在社會較為保守的國家。如果一張令人信服的假裸照被公開,受害者可能面臨失去工作和生計的危險,有些人則可能面臨伴侶暴力。
在數字時代,人類的面部與身份特徵都被數字化,演算法將人的身份拆解,傳統意義上的身份特質被分解,並與他人的身份特質再組合重構。也就是説,如果演算法被利用,人們將面對一個更加難辨真假的世界,當社會恐慌加劇,侵權案件頻發,女性權利將面臨進一步被侵犯的處境。
利益團體的手
演算法能迅猛發展到目前的程度,不得不説它在解決問題、完成任務方面,極大地解放了人類的勞動力、提升了工作效率,現已滲入日常生活的各個方面。有了演算法,人們可以更好地理解海量數據,激發科技上的突破,也會在日常生活中獲得便利、提升效率,人類和資訊會因此更緊密地聯繫起來。
但與演算法相關的利益團體的資本嵌入,進一步導致了演算法歧視。2014年,美國白宮發布的大數據研究報告指出,由設計者造成的演算法歧視,企業可能是無意識的,但也可能是利益團體對于弱勢一方的蓄意剝削。技術神話之下,用戶對于數據的迷信,給予了資方用演算法中立的外衣來操縱輿論、控制受眾的機會。
出于對利益的追求,一些公司試圖利用演算法,尋求“壟斷”的商業地位。
2019年有知情人士表示,亞馬遜調整了其産品搜索係統,以更有利于展示亞馬遜自身品牌,從而獲得更豐厚的利潤。這一舉措在亞馬遜內部也曾引發爭議。參與這個項目的知情人士表示,2018年年底亞馬遜優化了對産品進行排序的秘密演算法,亞馬遜不再像過去十多年那樣,在客戶搜索時主要向他們展示最相關和最暢銷的産品,而是傾向于推銷對該公司更有利可圖的條目。
對亞馬遜産品搜索係統的任何調整都具有廣泛的意義,因為這家零售巨頭的排名可以決定某個産品的成敗。市場分析公司Jumpshot的數據顯示,該網站的搜索欄是美國購物者最常用的線上搜尋商品的方式。
美國和歐盟也對亞馬遜所扮演的雙重角色——市場運營商和自有品牌産品的銷售者——進行了研究。如果亞馬遜的搜索係統並未像其所宣稱的那樣“做對客戶最有利的事”,而是傾向于盈利,則可能會將客戶引向數以千計的亞馬遜內部産品,這些産品為亞馬遜帶來的利潤率將高于網站上的競爭産品。
在臉書和谷歌等科技巨頭對網絡生態進行壟斷的背景下,演算法的設計和大量使用可能會限制人們的自由言論和表達。扎克伯格雖然聲稱,新聞推送把臉書變成了一份“個性化報紙”,讓人們看到自己希望看到的個性化新聞,但這些新聞往往只是推送方想讓人們看到的新聞;而用谷歌搜索時,不經意跳出的廣告,也在潛移默化地阻礙著我們作出獨立選擇。
這就是福爾在《臉書與自由之戰》一書中所揭示的:“當我們把思維外包給機器時,我們實際上是把思維外包給了運作機器的組織。”
演算法折射人類偏見
演算法在描繪和解釋現實世界的同時,也對人類社會的結構型偏見進行了整合。有分析人士認為,智能演算法的數據選取標準、數據模型的權重設定、語用分析和結果解讀等各環節都貫穿著人為因素,因此演算法不可避免地會反映設計者對于世界的認識。而當設計者將自身固有的社會成見植入規則中時,演算法在反映這種偏見的同時,也可能會放大歧視傾向。
巴西Revista Pesquisa FAPESP雜志刊文表示,當演算法以人類行為為基礎,它們就會不斷産生偏見,而且這很常見。雲自然語言API是谷歌開發的一個工具,可以通過機器學習來識別文本的結構和意義,但它也産生了自己的偏見。
美國網站Motherboard的一項測試表明,在API分析文本以確定其是否具有“積極”或“消極”情緒時,演算法將諸如“我是同性戀”和“我是黑人女同性戀”等陳述歸類為“消極”。塔夫茨大學的尼克·西維爾表示:“創建智能演算法的程式員需要意識到,他們的工具具有社會和政治含義。”
2016年,一個名叫羅薩莉婭的學生發現了一個奇怪的現象:用谷歌搜索“看起來工作不專業的發型”,結果搜索到的圖片絕大多數都是一頭自然卷的黑人女性;相反,如果搜索“看起來工作專業的發型”,結果就是鋪天蓋地的白人女性。
根據此前美國“為了人民”網站的調查結果,美國司法部使用的AI裁判演算法COMPAS將黑人錯誤分類為潛在犯罪者的概率比白人高出2倍左右。雖然人類法官也有因偏見和環境原因作出錯誤判決的風險,但這使得人們對演算法“公正性”的期待最終破滅。
臉部識別軟件背後的演算法也被偏見所“污染”。根據布奧拉米尼的最新論文,照片中的人如果是白人,軟件分辨的準確率為99%,但膚色越暗,錯誤率就越高。特別是膚色暗淡的女性形象出現了最高35%的錯誤。
2020年年末,一份有關人臉識別人工智慧問題的報告顯示:“部分面部識別程式錯誤辨認亞洲、非洲裔的概率,是認錯白人男性概率的100倍。”這是美國標準技術研究所(NIST)對近200個面部識別演算法進行分析後得出的結果。
(實習生楊曉鸰對本文亦有貢獻)
來源:2021年4月21日出版的《環球》雜志 第8期
《環球》雜志授權使用,其他媒體如需轉載,請與本刊聯繫
本期更多文章敬請關注《環球》雜志微博、微信客戶端:“環球雜志”
|