AI 和機器學習中暗含的演算法偏見
在我們的世界裡,演算法無處不在,偏見也是一樣。從社會媒體新聞的提供到流式媒體服務的推薦到線上購物,計算機演算法,尤其是機器學習演算法,已經滲透到我們日常生活的每一個角落。至於偏見,我們只需要參考 2016 年美國大選就可以知道,偏見是怎樣在明處與暗處影響著我們的社會。
很難想像,我們經常忽略的一點是這二者的交集:計算機演算法中存在的偏見。
與我們大多數人的認知相反,科技並不是客觀的。 AI 演算法和它們的決策程序是由它們的研發者塑造的,他們寫入的代碼,使用的「訓練」數據還有他們對演算法進行應力測試的過程,都會影響這些演算法今後的選擇。這意味著研發者的價值觀、偏見和人類缺陷都會反映在軟體上。如果我只給實驗室中的人臉識別演算法提供白人的照片,當遇到不是白人照片時,它不會認為照片中的是人類。這結論並不意味著 AI 是「愚蠢的」或是「天真的」,它顯示的是訓練數據的分布偏差:缺乏多種的臉部照片。這會引來非常嚴重的後果。
這樣的例子並不少。全美範圍內的州法院系統都使用「黑盒」對罪犯進行宣判。由於訓練數據的問題,這些演算法對黑人有偏見,他們對黑人罪犯會選擇更長的服刑期,因此監獄中的種族差異會一直存在。而這些都發生在科技的客觀性偽裝下,這是「科學的」選擇。
美國聯邦政府使用機器學習演算法來計算福利性支出和各類政府補貼。但這些演算法中的信息,例如它們的創造者和訓練信息,都很難找到。這增加了政府工作人員進行不平等補助金分發操作的幾率。
演算法偏見情況還不止這些。從 Facebook 的新聞演算法到醫療系統再到警用攜帶相機,我們作為社會的一部分極有可能對這些演算法輸入各式各樣的偏見、性別歧視、仇外思想、社會經濟地位歧視、確認偏誤等等。這些被輸入了偏見的機器會大量生產分配,將種種社會偏見潛藏於科技客觀性的面紗之下。
這種狀況絕對不能再繼續下去了。
在我們對人工智慧進行不斷開發研究的同時,需要降低它的開發速度,小心仔細地開發。演算法偏見的危害已經足夠大了。
我們能怎樣減少演算法偏見?
最好的方式是從演算法訓練的數據開始審查,根據微軟的研究人員所說,這方法很有效。
數據分布本身就帶有一定的偏見性。編程者手中的美國公民數據分布並不均衡,本地居民的數據多於移民者,富人的數據多於窮人,這是極有可能出現的情況。這種數據的不平均會使 AI 對我們是社會組成得出錯誤的結論。例如機器學習演算法僅僅通過統計分析,就得出「大多數美國人都是富有的白人」這個結論。
即使男性和女性的樣本在訓練數據中等量分布,也可能出現偏見的結果。如果訓練數據中所有男性的職業都是 CEO,而所有女性的職業都是秘書(即使現實中男性 CEO 的數量要多於女性),AI 也可能得出女性天生不適合做 CEO 的結論。
同樣的,大量研究表明,用於執法部門的 AI 在檢測新聞中出現的罪犯照片時,結果會驚人地偏向黑人及拉丁美洲裔居民。
在訓練數據中存在的偏見還有很多其他形式,不幸的是比這裡提到的要多得多。但是訓練數據只是審查方式的一種,通過「應力測驗」找出人類存在的偏見也同樣重要。
如果提供一張印度人的照片,我們自己的相機能夠識別嗎?在兩名同樣水平的應聘者中,我們的 AI 是否會傾向於推薦住在市區的應聘者呢?對於情報中本地白人恐怖分子和伊拉克籍恐怖分子,反恐演算法會怎樣選擇呢?急診室的相機可以調齣兒童的病歷嗎?
這些對於 AI 來說是十分複雜的數據,但我們可以通過多項測試對它們進行定義和傳達。
為什麼開源很適合這項任務?
開源方法和開源技術都有著極大的潛力改變演算法偏見。
現代人工智慧已經被開源軟體佔領,TensorFlow、IBM Watson 還有scikit-learn這類的程序包都是開源軟體。開源社區已經證明它能夠開發出強健的,經得住嚴酷測試的機器學習工具。同樣的,我相信,開源社區也能開發出消除偏見的測試程序,並將其應用於這些軟體中。
調試工具如哥倫比亞大學和理海大學推出的DeepXplore,增強了 AI 應力測試的強度,同時提高了其操控性。還有麻省理工學院的計算機科學和人工智慧實驗室完成的項目,它開發出敏捷快速的樣機研究軟體,這些應該會被開源社區採納。
開源技術也已經證明了其在審查和分類大組數據方面的能力。最明顯的體現在開源工具在數據分析市場的佔有率上(Weka、Rapid Miner 等等)。應當由開源社區來設計識別數據偏見的工具,已經在網上發布的大量訓練數據組比如Kaggle也應當使用這種技術進行識別篩選。
開源方法本身十分適合消除偏見程序的設計。內部談話、私人軟體開發及非民主的決策制定引起了很多問題。開源社區能夠進行軟體公開的談話,進行大眾化,維持好與大眾的關係,這對於處理以上問題是十分重要的。如果線上社團,組織和院校能夠接受這些開源特質,那麼由開源社區進行消除演算法偏見的機器設計也會順利很多。
我們怎樣才能夠參與其中?
教育是一個很重要的環節。我們身邊有很多還沒意識到演算法偏見的人,但演算法偏見在立法、社會公正、政策及更多領域產生的影響與他們息息相關。讓這些人知道演算法偏見是怎樣形成的和它們帶來的重要影響是很重要的,因為想要改變目前的局面,從我們自身做起是唯一的方法。
對於我們中間那些與人工智慧一起工作的人來說,這種溝通尤其重要。不論是人工智慧的研發者、警方或是科研人員,當他們為今後設計人工智慧時,應當格外意識到現今這種偏見存在的危險性,很明顯,想要消除人工智慧中存在的偏見,就要從意識到偏見的存在開始。
最後,我們需要圍繞 AI 倫理化建立並加強開源社區。不論是需要建立應力實驗訓練模型、軟體工具,或是從千兆位元組的訓練數據中篩選,現在已經到了我們利用開源方法來應對數字化時代最大的威脅的時間了。
via:https://opensource.com/article/18/1/how-open-source-can-fight-algorithmic-bias
※谷歌機器學習速成課學前預備書單
※IBM稱其機器學習庫的速度比TensorFlow快了46倍
TAG:機器學習 |