當前位置:
首頁 > 最新 > 試問:隨著機器學習滲透到社會各方面,我們該如何應對演算法不公平問題?

試問:隨著機器學習滲透到社會各方面,我們該如何應對演算法不公平問題?

來源:Nature編譯:Lin Tian

2015年,一位憂心忡忡的父親向Rhema Vaithianathan提出一個問題,這個問題至今仍然困擾著她。

當時人們聚集在賓夕法尼亞州匹茲堡的一個會議室里,聽她解釋軟體如何解決虐待兒童問題。每天,該地區的熱線都會收到幾十個懷疑孩子有危險的電話;其中一些隨後被呼叫中心工作人員標記為進行調查。但該系統並未能發現所有虐待兒童案例。

Rhema Vaithianathan 建議演算法以發現虐童事件

Vaithianathan和她的同事們剛剛獲得了50萬美元的資助以建立演算法來提供幫助。Vaithianathan是一位健康經濟學家,她也是紐西蘭奧克蘭理工大學社會數據分析中心的聯合主管,她告訴大家該演算法如何運作。例如,一個收集大量數據的工具——包括家庭背景和犯罪記錄——可以在來電時生成風險評分。這可以幫助電話篩選者標記要調查的家庭。

在Vaithianathan邀請觀眾提問後,那位父親站起來說道,他曾與毒癮鬥爭,因此,社工曾將一個孩子從他家帶走。但他已戒毒一段時間。如果通過計算機評估他的記錄,他為改變生活而付出的努力是否算數?換句話說:演算法是否會對他做出不公平的判斷?

Vaithianathan向他保證,人類將永遠處於循環中,所以他的努力不會被忽視。但現在已經部署了自動化工具,她仍然會考慮他的問題。計算機的計算越來越多地用於指導可能改變生活的決定,包括哪些人在被指控犯罪後被拘留;哪些家庭應受到潛在的虐待兒童調查,以及在一種稱為「預測性警務」的趨勢中,警察應該關注哪些社區。這些工具有望使決策更加一致、準確和嚴謹。但監督是有限的:沒人知道有多少工具正被使用,而且其帶來的不公平風險已經引起了人們的注意。例如,2016年,美國記者認為,用於評估未來犯罪活動風險的系統歧視黑人被告。

「我最關心的是我們構建的系統可以改善問題(但)可能最終會加劇這些問題,」 Kate Crawford說道,她是AI Now 研究所的聯合創始人,該研究中心位於紐約大學,研究人工智慧的社會影響。

隨著Crawford和其他人揮舞著紅旗,各國政府正試圖讓演算法負起公平正義的責任。去年12月,紐約市議會通過了一項法案成立了一個工作組,建議如何共享有關演算法的信息並對其進行調查以尋找偏見。今年法國總統埃馬紐埃爾·馬克龍(Emmanuel Macron)表示,該國將公開政府使用的所有演算法。在本月發布的指導意見中,英國政府要求那些處理公共部門數據的人員要保持透明和負責。歐洲通用數據保護條例(GDPR)於5月底生效,這預計也將推動演算法問責制。

在這種活動中,科學家們正面對複雜的問題,即如何使演算法公平。正如Vaithianathan等研究人員,他們與公共機構合作,努力建立負責且有效的軟體,必須努力解決自動化工具如何帶來偏見或加劇現有的不公平現象——特別是當這些工具被置入已經存在歧視的社會系統時尤為重要。

公平權衡

2014年,當匹茲堡社會服務部的官員在呼籲提出自動化工具的建議時,他們還沒有決定如何使用它。但他們希望對新系統持開放態度。該部門數據分析,研究和評估辦公室副主任Erin Dalton說道,「我非常反對將政府資金用於黑箱解決方案,我無法告訴我們的社區我們正在做什麼」。該部門擁有一個建於1999年的集中資料庫,其中包含大量的個人信息——包括住房,心理健康和犯罪記錄。Erin Dalton說,Vaithianathan的團隊在關注兒童福利上投入巨大。

阿勒格尼家庭篩查工具(AFST)於2016年8月啟動。針對每個熱線電話,呼叫中心員工都能看到由自動風險評估系統生成的分數——1至20分,其中20分對應的案例風險最高。這些是AFST預測的兒童最有可能在兩年內被趕出去的家庭。

加利福尼亞州斯坦福大學的獨立研究員Jeremy Goldhaber-Fiebert仍在評估該工具。但Dalton說初步結果表明它有所幫助。她說,呼叫中心工作人員提到調查人員的案件似乎包括更多合法關注的案例。對於具有類似情況的案例,電話篩選器似乎也在做出更一致的決策。儘管如此,其決策並不一定與演算法的風險評分一致;該縣希望將兩者更緊密地聯繫起來。

隨著AFST的部署,Dalton希望得到更多的幫助來確定它是否有偏見。2016年,她邀請匹茲堡卡內基梅隆大學的統計學家Alexandra Chouldechova分析該軟體是否歧視特定群體。Chouldechova已在考慮演算法中的偏見,並且即將對一個引發了大量辯論的案例進行權衡。

同年5月,新聞網站ProPublica的記者報道了佛羅里達州布勞沃德縣法官使用的商業軟體,這有助於決定被控犯罪的人是否應該在審判前被釋放。記者表示,該軟體對黑人被告帶有偏見。這個名為COMPAS的工具生成的分數旨在評估當一個人在被釋放的情況下,其在兩年內犯下另一罪行的可能性。

ProPublica團隊調查了數千名被告的COMPAS分數。他們比較了黑人和白人被告,記者發現不成比例的黑人被告是「誤報」:他們被COMPAS歸類為高風險,但隨後並未被指控犯有其他罪行。

該演算法的開發人員,一家名為Northpointe(現為Equivant)的密歇根公司,認為該工具沒有偏見。它說,COMPAS同樣善於預測被歸類為高風險的白人或黑人被告是否會重新犯罪。Chouldechova很快表明,Northpointe和ProPublica的公平測量標準之間存在緊張關係。預測性等同,相等的假陽性錯誤率和相等的假陰性錯誤率都是「公平」的方式,但如果兩組之間存在差異,統計上無法調和——例如白人和黑人被重新逮捕的比率(參見「如何定義公平」)。倫敦大學學院負責機器學習的研究員Michael Veale說道:「你無法擁有一切。如果你想以某種方式公平,你可能在另一個聽起來合理的定義中也是不公平的。

如何定義「公平」

研究演算法偏差的研究人員表示,有很多方法可以定義公平,但這些方法有時相互矛盾。想像一下,在刑事司法系統中使用的演算法會將分數分配給兩組(藍色組和紫色組),因為它們有被重新逮捕的風險。歷史數據表明紫色組的逮捕率較高,因此該模型將紫色組中的更多人分類為高風險。 即使模型的開發人員試圖避免偏見,這種情況也可能發生。這是因為用作訓練輸入的其他數據可能也與藍色或紫色相關。

高風險狀態不能完美地預測重新逮捕,但演算法的開發人員試圖使預測公平:對於兩個群體而言,「高風險」相當於兩年內被逮捕的幾率是三分之二。(這種公平性被稱為預測性平等)未來逮捕率可能不會遵循過去的模式。但是在這個簡單的例子中,假設他們這樣做:正如預測的那樣,藍色組10人中的3人和紫色組10人中的6人確實是被逮捕了(可參見圖中底部的灰色條形圖)。

該演算法具有預測奇偶性,但存在問題。在藍色組中,7人中有1人(14%)被誤認為是高風險;在紫色組中,4人中有2人(50%)被誤認為是高風險。所以,紫色組更有可能出現「誤報」情況,即被誤認為是高風險。

有些人會認為紫色組的假陽性率較高是歧視。但其他研究人員認為,這並不一定是演算法偏差的證據,且可能存在更深層次的不平衡來源:紫色組可能首先被不公平地聚焦了。過去的數據準確預測了紫色組中將有更多人被重新逮捕,該演算法可能會重現,這也許是根深蒂固的,也即一種先前存在的社會偏見

事實上,從數學角度來說,還有更多方法來定義公平:在今年2月的一次會議上,計算機科學家Arvind Narayanan發表了題為「21種對公平的定義及其政治學」的演講,他指出還有其他方法。一些研究ProPublica案例的研究人員,包括Chouldechova,指出目前尚不清楚錯誤率是否存在偏差。斯坦福大學的計算機科學家Sharad Goel說,「他們反而反映出這樣一種情況:較之於一個群體,對另一群體的預測可能更難。但事實證明,這或多或少是一種統計假象。」

新澤西卡姆登的警察使用自動工具來決定去哪些區域巡邏

雖然統計失衡是一個問題,但不公平的更深層面潛藏在演算法中——它們可能會加劇社會不平等。例如,諸如COMPAS之類的演算法旨在預測未來犯罪活動的可能性,但它只能依賴於可衡量的因素,例如被捕情況。警務實踐的變化可能意味著某些社區成為不正常的目標,人們因其他社區可能被忽視的犯罪而被捕。華盛頓特區非營利性社會公正組織Upturn的董事總經理David Robinson說:「即使我們準確預測某些事情,我們準確預測的事情也可能是不公正的事情。」 這很大程度上取決於法官依賴這些演算法做出決定的程度——但究竟是哪些演算法卻鮮為人知。

透明度及其局限性

按照Allegheny社會服務部門採用的方式,人們對提高透明度抱有很大的興趣,Allegheny與相關人士合作並向記者敞開大門。AI Now研究所的Crawford說,演算法通常會加劇問題,因為它們是「封閉的,無法進行演算法審計、審查或公開辯論」。但目前尚不清楚如何使演算法更加開放。Ghani說,簡單地發布模型的所有參數並不能提供有關其工作原理的深入見解。透明度也可能與保護隱私的努力相衝突。在某些情況下,披露有關演算法如何工作的過多信息可能允許人們對系統進行操縱。

Crawford認為,我們需要一系列「正當程序」來確保演算法的責任性。4月,AI Now研究所為有興趣負責任地採用演算法決策工具的公共機構概述了一個框架;此外,它呼籲徵求社區意見,並讓人們有能力就對其做出的決定提起上訴。

許多人希望法律能夠實現這些目標。Solon Barocas是康奈爾大學人工智慧研究倫理與政策問題的研究員,他說,這是有一些先例的。在美國,一些消費者保護規則在對其信用做出不利決定時給予公民解釋。Veale說,在法國,早在20世紀70年代,就有賦予解釋權和自動決策爭議能力的立法。

歐洲的GDPR將於5月25日生效。一些條款——例如有關自動決策案例中涉及的邏輯信息的權利——似乎促進了演算法問責制。但英國牛津互聯網研究所的數據倫理學家Brent Mittelstadt表示,GDPR可能通過為那些想要評估公平性的人創建一個「合法的雷區」來阻礙它。測試演算法是否偏向某些組別的最佳方法——例如,它是否偏好一個組別而非另一個——需要了解進入系統的人的相關屬性。但Mittelstadt表示,GDPR對使用此類敏感數據的限制非常嚴格,處罰如此之高,以至於有能力評估演算法的公司可能沒有動力處理這些信息。「這似乎是對我們評估公平性能力的限制。」 Mittelstadt說道。

審查演算法

與此同時,研究人員正在推進檢測尚未開放供公眾審查的演算法偏差的策略。Barocas說,公司可能不願意討論他們如何努力解決公平問題,因為這意味著首先承認存在問題。他說,「即使他們這樣做,其行為也只是有可能改善偏見但不能消除偏見。所以關於這一點的公開聲明也將不可避免地承認問題仍然存在。」但最近幾個月,微軟和Facebook都宣布開發檢測偏見的工具。

一些研究人員,如波士頓東北大學的計算機科學家Christo Wilson,試圖從外部發現商業演算法的偏見。Wilson已創建了模擬乘客,他們聲稱正在尋找優步計程車,並將虛擬簡歷上傳到就業網站以測試性別偏見。

其他人正在構建希望可以在自我評估中普遍使用的軟體。今年5月,Ghani和他的同事發布了名為Aequitas的開源軟體,以幫助工程師、政策制定者和分析師審查機器學習模型的偏見。

現正將其虐待兒童預測模型擴展到科羅拉多州道格拉斯和拉里默縣的Vaithianathan看到了建立更好演算法的價值,即使其所置入的總體系統存在缺陷。她說:「演算法不能被空降到到這些複雜的系統之中,我們必須在那些了解更廣泛背景的人的幫助下實施方案。但即便是最好的努力也將面臨挑戰,因此,在缺乏直接答案和完美解決方案的情況下,透明度是最好的政策。我的原則是:如果不能保持正確,那麼至少要保持誠實!」

一些參考

https://csda.aut.ac.nz/

https://www.alleghenycountyanalytics.us/wp-content/uploads/2017/07/AFST-Frequently-Asked-Questions.pdf

https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

https://ainowinstitute.org/aiareport2018.pdf

http://dsapp.uchicago.edu/aequitas/

-The End-


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

20本機器學習與數據科學必讀書籍
量子比特與機器學習「雙劍合璧」,實現超精準感測技術

TAG:機器學習 |