MIT SCAIL科學家研究出讓AI演算法自動消除偏見的方法
如今,演算法中存在的偏見問題比大家所能想到的更為普遍。
比如:在2012年發表的一篇學術論文指出,來自Cognitec的人臉識別系統對非裔美國人的檢測效果比白種人要差5%至10%。另外,研究人員還在2011年的調查中發現,由中國、日本以及韓國開發的模型往往難以區分高加索人與東亞人。而在最近的另一項研究中,谷歌與亞馬遜推出的高人氣智能揚聲器在服務非本地用戶時,結果顯示其理解非美國口音的能力要低出30%。而此前在2016年的一篇論文也提到,谷歌新聞文章中的嵌入詞往往對女性與男性表現出刻板的性別印象。
對於這個困擾業界許久的問題,麻省理工學院算機科學與人工智慧實驗室(簡稱MIT SCAIL)的科學家們不久前發表了一篇題為《Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure(通過學習潛在結構提示並緩解演算法偏見)》的論文(在「科技行者」對話界面回復「MIT論文」獲取論文下載鏈接>,這篇論文由博士生Alexander Amini與Ava Soleimanhy、碩士研究生Wilko Schwarting以及麻省理工學院教授Sangeeta Bhatia與Daniela Rus共同撰寫。
論文中描述了如何通過重新採樣確保人工智慧系統對數據自動「消除偏見」,從而使最終給出的觀點結果更為中立。他們表示,當在專門設計用於測試計算機視覺系統偏見的數據集上進行評估時,這套方案表現出了更優越的性能以及「更低的分類偏見」。
作為作者之一的Amini在一份聲明中解釋稱:「雖然大家普遍認為人臉識別已經是一項較為成熟的技術,但很明顯,即使是其中經常使用的數據集也並沒有得到適當的審查。對這些問題加以糾正尤其重要,因為我們已經開始看到這些演算法被應用於安全、執法以及其它眾多領域。」
事實上,這已經不是MIT SCAIL第一次就這個問題展開研究——在2018年的一篇論文中,David Sontag教授及其同事就提出了一種能夠減少AI偏見而又不致降低預測結果準確性的方法。但此次提出的新論文採用了一種新穎的、半監督式的端到端深度學習演算法。該演算法會同時學習需要完成的任務本身(例如人臉識別)以及訓練所用數據的潛在結構,通過對後者的學習,能夠幫助其及時發現訓練數據中隱藏或隱含的偏見,並在訓練期間自動消除這種偏見,而完全無需數據預處理或注釋。
實現方式
研究人員打造的這套AI系統的核心,其實是一套變分自動編碼器(簡稱VAE),能夠模擬人腦中神經元的數學函數層,其本質是一種神經網路,具體包括編碼器、解碼器以及損失函數。編碼器負責將原始輸入映射至特徵表示,而解碼器則將特徵表示作為輸入,以利用其完成預測並生成輸出結果。(損失函數則測量演算法對於給定數據的建模效果。)
在使用這套VAE方案的情況下(論文中將其稱為去偏見-VAE,簡稱DB-VAE),編碼器能夠在一定程度上學習特定數據點內潛在變數的真實分布近似情況,而解碼器則立足潛在空間重建輸入內容。對解碼結果的重建使得系統能夠在訓練期間對潛在變數進行無監督學習。
為了驗證去偏見演算法在具有 「重大社會影響」的真實世界問題中的表現,研究人員們使用包含40萬幅圖像的數據集訓練DB-VAE模型,並以八成對二成的比例將其劃分為訓練集與驗證集。在此之後,他們在PPB測試數據集上進行評估——這套數據集包含來自非洲與歐洲各國總計1270名男女議員的圖像。
結果令人眼前一亮。根據研究人員的說法,DB-VAE不僅學會了識別面部特徵,例如感知到膚色與頭髮的存在,還學會了區分性別及年齡等其它特徵。立足個人人口統計(種族/性別)及PPB數據集,在對多種模型進行去偏見與未去偏見結果比較之後,DB-VAE顯示出更高的分類準確性並降低了由種族與性別引發的分類偏見——研究團隊認為,這是人工智慧朝著公平與公正發展方向邁出的重要一步。
在論文中,研究人員這樣寫道:「系統的開發與部署對於防止意外歧視並保證這些演算法的長期有效運作至關重要。我們希望自己提出的方法能夠成為一種真正的系統化工具,從而促進現代AI系統的演算法公平性。」
技術進展
過去十年以來,一系列失誤事件讓我們意識到人工智慧確實存在潛在偏見,這無疑令人沮喪萬分。然而,問題的出現也讓學術界在實現更準確、更客觀中立的系統開發方面取得了可喜的進展。
除了麻省理工學院此次研究結果之外,還有許多企業也在該領域不斷進行嘗試和努力。比如:
- 去年6月,微軟公司與人工智慧(簡稱AI)公平專家合作,修改並擴展了用於訓練的Face API數據集。這是一個微軟Azure API,提供用於檢測、識別並分析圖像中人臉的演算法。通過新的膚色、性別與年齡數據,其能夠將深膚色男性與女性的識別錯誤率降低至原本的二十分之一,並將女性整體的識別錯誤率降低至原本的九分之一;
- 去年5月,Facebook推出了Fairness Flow,它能夠自動警告某種演算法是否根據種族、性別或者年齡對某人做出了不公平的判斷;
- 埃森哲方面則發布了一款工具包,用於自動檢測AI演算法中的偏見,並幫助數據科學家緩解結果中的偏見;
- 去年9月,谷歌公司出推出了其What-If工具,這是面向其TensorFlow機器學習框架的TensorBoard網路儀錶板中的一項偏見檢測功能;
- IBM公司則於去年秋季拿出了自己的Ai Fairness 360,這是一款基於雲端的全自動化套件,能夠幫助用戶了解AI系統如何制定決策並提供調整建議——例如演算法調節或者數據平衡,從而緩解偏見的影響。最近,IBM沃森與Cloud Platforms小組的研究重點也開始轉向減輕AI模型中的偏見問題,特別是與人臉識別相關的偏見。
如果一切順利,那麼上述舉措——以及像麻省理工學院CSAIL新演算法這樣的開創性工作,將有望給人工智慧的偏見問題帶來喜人的整體性改善。
※高通9205晶元:我為物聯網而生
※華為:5G基站部署要像搭積木一樣便捷,AI要無處不在
TAG:科技行者 |