當前位置:
首頁 > 新聞 > 觀點:AI 的偏差,取決於人們如何使用機器學習系統

觀點:AI 的偏差,取決於人們如何使用機器學習系統

雷鋒網 AI 科技評論按,「AI 的偏差」是機器學習中非常受關注的一個問題,著名分析師 Benedict Evans 對此發表了一篇文章,雷鋒網 AI 科技評論編譯整理如下。

機器學習在數據中發現模式。「AI 偏差」意味著它可能會發現錯誤的模式——一個用於檢測皮膚癌的系統可能會更加關注照片是否是在醫生辦公室拍攝的。機器學習不「理解」任何東西——它只是在數據中尋找模式,如果樣本數據不具有代表性,那麼輸出也不會具有代表性。同時,機器學習的機制讓我們難以發現這一問題。

由於人類的多樣性,而且有很多理由說明關於人類的數據可能帶有隱含的偏差,在人類中這一問題比較明顯。但是,如果你認為這僅僅和人有關,那就產生了誤導,這就像試圖發現倉庫里的洪水或是燃氣輪機的故障,這是誤導性的,或者是不完整的。一個系統可能偏向於不同的皮膚色素沉著,另一個系統可能偏向於西門子感測器。

這些問題不是機器學習的新問題,也不是唯一的問題——所有複雜的組織都會做出錯誤的假設,而且總是很難做出決定。解決辦法是製作工具和流程來檢查這個問題,並進行用戶教育,確保人們不只是「做人工智慧所說的」。機器學習比人更擅長做某些事情,就像狗比人更擅長發現毒品一樣,但你不會根據狗的證據來對某個人定罪。狗比任何機器學習都聰明得多。

機器學習是當今最重要的基本技術趨勢之一,也是未來十年技術將改變世界的主要方式之一。作為其中的一部分,機器學習的某些方面引起了人們的關注——例如,它對就業的潛在影響,以及它可能被用於做人們認為不道德的事情,例如,它可能賦予某些政治組織新的能力去壓迫它們的人民。另一個,也就是這篇文章的討論的主題,是 AI 偏差的問題。

這並不是一件簡單的事情。

什麼是「AI 偏差」?

「原始數據是矛盾的,使用它是一個壞主意;相反,數據應該小心烹制,精心處理。」

——Geoffrey Bowker

直到 2013 年,如果你想製作一個軟體系統,比如說,識別照片中的貓的系統,你可以寫下合乎邏輯的步驟。你會做一些東西來尋找圖像中的邊緣,一個眼睛檢測器,一個毛皮紋理分析儀,然後試著計算腿的數量,等等,然後你會把它們連接在一起……但是它永遠不會真正起作用。從概念上講,這相當於試圖製造一匹機械馬——理論上是可能的,但在實踐中太複雜了,我們沒有能力去描述它。你最終止於成百上千的手寫規則,卻沒有得到一個可用的模型。

在機器學習中,我們不使用手寫規則來識別 x 或 y。相反,我們取了 1000 個 x 和 1000 個 y 的例子,讓計算機根據這些例子的統計分析建立模型。然後我們可以給這個模型一個新的數據點,在給定的精度下,判斷數據點是否適合示例集 X 或示例集 Y。機器學習使用數據生成模型,而不是由人類編寫模型。這種做法得到了出人意料的好結果,對於識別或模式查找問題來說尤其如此,這就是為什麼整個技術行業都在圍繞機器學習技術進行改造的原因。

但是,這裡面有一個陷阱。在現實世界中,你的數千(或數十萬,或數百萬)個 x 和 y 的例子也包含 A、B、J、L、O、R 和 P。這些例子可能分布不均勻,並且,它們樣本數可能足夠多,以至於相比於 X,系統更關注 L 和 R。

這在實踐中意味著什麼?我最喜歡舉的例子是圖像識別系統傾向於將一張草丘的照片判斷為「綿羊」。大多數關於「綿羊」的圖片都是在長滿草的山丘上拍攝的,因為這就是綿羊通常生活的地方,而在圖片中,草比白色絨毛狀的小東西更為突出,所以系統給予它最多的權重。

關於這一點,最近,一個更為嚴重的例子出現了:一個在照片中尋找皮膚癌的項目也出現了誤判。為了進行測量,在皮膚癌的照片中經常出現皮膚科醫生放置的尺子,但是健康皮膚的示例照片中不包含尺子。對於系統來說,雖然尺子(或者更確切地說,我們視為尺子的像素)只是示例集之間的差異,但它們有時比皮膚上的小斑點更突出。因此,用來檢測皮膚癌的系統有時候檢測的是尺子。

這裡要理解的一個核心問題是,系統對它所「看」到的內容沒有語義上的理解。我們查看一個像素網格,並將其轉換為綿羊、皮膚或尺子,但系統只看到一系列數字。它看不到三維空間、物體、紋理或綿羊,它只看到了數據中的模式。

與此同時,試圖診斷此類問題的挑戰在於機器學習系統生成的模型(神經網路)包含數千或數十萬個節點。我們不能直接查看模型內部,知道它是如何做出決定的——如果可以的話,那麼這個過程就足夠簡單,你一開始就不需要 ML,可以自己編寫規則。人們擔心 ML 是一個「黑盒子」。(不過,我稍後會對此進行解釋,這個問題經常被誇大。)

這是一個非常簡單的「AI 偏差」或「機器學習偏差」問題:一個試圖在數據中找到模式的系統發現的可能是錯誤的模式,並且你可能根本意識不到。這是這項技術的一個基本特徵,學術界和大型科技公司(的數據人員)的每個人都很清楚這一點,但它產生的後果是複雜的,我們對這些後果的設計出來的潛在解決方案也是複雜的。

首先,我們來談談後果。

AI 偏差場景

這個問題最明顯和最直接的體現是人類的多樣性。最近有報道稱,亞馬遜已經嘗試建立一個機器學習系統來篩選應聘者。由於亞馬遜目前的員工群體偏向男性,「成功僱傭」的例子在實際中也偏向男性,因此,該系統在招聘時也會選擇男性。亞馬遜發現了這一點,因此該系統從未被用於實踐。

這個例子中最重要的一點是,據報道,即使在簡歷中沒有明確標註性別,系統也顯示出這種偏差。系統也看到了「成功的應聘者」樣本集中的的樣本在其它方面的模式——例如,女性可能會用不同的詞來描述成就,或者在學校參與了各種各樣的體育活動。當然,這個系統不知道曲棍球是什麼,不知道人是什麼,也不知道「成功」是什麼——它只是對文本進行統計分析。但是,它所看到的模式不一定是人類會注意到的事情,而且對於某些事情(例如,描述「成功」的辭彙,在不同性別之間可能會有所不同),人類可能很難發現。

當一個非常擅長在蒼白皮膚上發現皮膚癌的機器學習系統遇到深色皮膚時,情況變得更糟了,反之亦然。這可能不是因為樣本中存在偏差,而是因為你可能需要以不同的方式構建模型,以從中挑選出不同的特徵。即使是在像圖像識別這樣的狹窄應用中,機器學習系統也是不共通的。你必須調整系統的結構,有時只需要通過嘗試和錯誤,以便在你感興趣的數據中很好地發現特定的特性,直到獲得滿意的準確度。但是你可能沒有意識到系統在一組數據上測試的準確度是 98%,而在另一組數據上可能只有 91%(即便這種準確度仍然超過人類)。

到目前為止,我使用的都是人或者和人有關的例子。但重要的是,我們要理解圍繞人的偏差只是下面這個問題的一個子集:我們將會使用 ML 做很多事情,而樣本偏差在所有這些事情中都將是需要被考慮的一部分。同樣地,即使和你合作的是人,數據中的偏差也是可能存在的。

為了系統地理解這一點,回顧一下前麵皮膚癌的例子,並考慮可能會被打破的三種假設方式是很有用的:

沒有一個人是均勻分布的:在不同色調的照片中,皮膚照片顏色並不是完全相同的,所以你的系統對皮膚色素沉著的判斷可能是錯誤的。

你的數據包含一個突出的、分布不均的非人類特徵,它沒有診斷價值,但系統會對此進行訓練——例如皮膚癌照片中的尺子,或綿羊照片中的草。在這種情況下,如果我們看到的是「尺子」(但它不存在)的像素,結果就會改變。

你的數據還包含一些其他的特徵,即使人們在尋找這些特徵時也看不到它們。

「即使人們尋找它」是什麼意思?好吧,我們知道,或者應該知道,數據可能會在不同的人類群體中產生偏差,並且至少可以計劃尋找這個偏差。換句話說,關於為什麼你可能會期望你的數據會在人類群體中產生偏差,有著各種各樣的社會原因。如果我們看有尺子的照片,我們可以看到尺子——我們只是忽略了它,因為我們知道它是無關的,但我們忘記了系統什麼都不知道。

但是,如果你所有的不健康皮膚照片都是在有白熾燈的辦公室里拍攝的,而你健康皮膚照片是在熒光燈下拍攝的呢?如果你在拍攝健康照片和不健康照片的中間更新了智能手機上的操作系統,而蘋果或谷歌對降噪演算法做了一些小的改動,會怎麼樣?不管他們看起來多麼厲害,人類可能完全不會注意到這些變化,但是機器學習系統會立即看到並使用它。系統什麼都不知道。

到目前為止,我們一直在討論錯誤的相關性,但是數據中也可能存在完全準確和正確的預測模式,但出於道德、法律或基於產品的原因,你不想使用這些模式。例如,在某些司法管轄區,即使女性可能是更安全的駕駛者,向女性提供更好的汽車保險費率也是不允許的。我們可以很容易地想像一個系統,它查看歷史數據,並學會將「女性」名字與低風險聯繫起來,因此你可以從數據中刪除名字——但是,正如上面的亞馬遜示例一樣,可能還有其他因素向系統揭示性別(當然,它沒有性別概念),除非監管機構事先對你提供的報價進行統計分析,並對你處以罰款,否則你可能不會意識到這一點。

最後,在我們討論這個問題的時候,好像我們只會將這些系統用於以某種方式涉及人、社會互動和假設的事情。而實際上並非如此。如果你製造燃氣輪機,你會對將機器學習應用到來自你產品上幾十或數百個感測器的遙測(音頻、振動、溫度或任何其他感測器生成的數據,這些數據很容易被重新用於機器學習模型)非常感興趣。比如,你可能會說,「這是 1000 台即將發生故障的渦輪機的數據,這是 1000 台運轉良好的渦輪機的數據——可以建立一個模型來區分它們的不同之處」。現在,假設 75% 的壞渦輪機使用了西門子感測器,只有 12% 的好渦輪機使用感測器(假設這與故障沒有關係)。該系統將建立一個和西門子感測器相關的模型來檢測渦輪。

AI 偏差管理

我們該怎麼辦?你可以從三個方面來考慮這個問題:

  • 訓練數據收集和處理的方法的嚴謹性

  • 分析和診斷模型行為的技術工具

  • 在產品中部署 ML 的訓練、教育和注意事項

「Molière"s Bourgeois Gentilhomme」中有一個笑話,講的是一個人被教導文學分為「詩」和「散文」,他很高興地發現自己在無意識的情況下,一輩子都在講散文。統計學家們今天可能也有同樣的感受——他們一直在研究「人工智慧」和「樣本偏差」,但他們自己沒有意識到這一點。尋找和擔憂樣本偏差並不是一個新的問題——我們只需要非常系統地對待這個問題。如前所述,從實際上來看,在某些方面,我們在看待和人有關的問題時可能更容易。這是因為,我們知道,我們可能對不同的人類群體有偏差,但我們可能沒有意識到的是,我們可能對西門子有偏差。

當然,不同的是,人們不再直接進行統計分析了,而是由機器完成的,它生成的模型複雜度和規模都非常大,不容易分析。透明度問題是關於偏差的主要關注領域之一。我們擔心這一點並不只是因為它有偏差,而且因為這些偏差是沒有辦法分辨的,它在某種程度上是全新的,不同於其他形式的組織,在這些組織中有清晰的邏輯步驟可以檢查。

這有兩個問題:我們可能在某些方面可以檢查 ML 系統,而檢查任何其他系統實際上並不容易。

首先,當前機器學習研究的一部分是尋找工具和方法,找出機器學習系統中最突出的特徵。同時,機器學習(在目前的表現形式中)是一個非常新的領域,科學技術正在迅速地革新。人們今天認為不實用的東西可能很快會變得實用。這個 OpenAI 項目就是一個有趣的例子。

其次,你可以在現有系統或組織中檢查和理解決策的想法在理論上是正確的,但在實踐中是有缺陷的。在一個大的組織中,如何進行決策的審查一點也不容易。這可能是一個正式的決策過程,但它並不是人們實際互動的方式,而且人們本身往往沒有一個清晰的邏輯和系統的方式來做出他們自己的決定。正如我的同事 Vijay Pande 所說的那樣,人們也是黑匣子——許多公司和機構中將成千上萬的人和問題結合在一起。以美國宇航局為例,我們從郵報上得知,太空梭在重返大氣層時會解體,美國宇航局內部的不同人員掌握的信息讓他們認為可能會發生一些不好的事情,但整個系統並不知道這一點。與此同時,當美國宇航局失去了先前的太空梭時,它正經歷著這個檢查過程,但由於非常相似的原因,它又失去了另一個太空梭。很顯然,組織和人類系統遵循清晰的邏輯規則,你可以檢查、理解和改變這些規則,但在實際上並非如此。這被稱為 Gosplan fallacy。

在這種情況下,我經常將機器學習與資料庫,尤其是關係型資料庫進行比較。關係資料庫是一種新的基礎技術,它改變了計算機科學中可能發生的事情,改變了更廣闊的世界,它是一切事物的組成部分,我們現在一直在使用它,但卻沒有注意到它。但是資料庫也存在問題,這些問題也有相同的特點:系統可能建立在錯誤的假設或錯誤的數據之上,這很難分辨,往往使用它的人會按照系統告訴他們的做而不加質疑。有個老笑話是說,稅務局把你的名字拼錯了,改變你的名字比說服他們改成正確的名字要容易得多。這是 SQL 固有的技術問題,它是 Oracle 的執行失敗,還是大型官僚機構的制度失敗?

在一個更簡單的層面上,人們可以從人們因為衛星導航系統過時而駕駛汽車沖入河流中的現象中看到這個問題。是的,從理論上來說,地圖應該是最新的。但是,你的車漂到海里有多少是地圖的錯呢?

所有這些都是說,ML 偏差將以與過去問題大致相同的方式引起問題,並且它是否可以解決和發現的概率與過去大致相同。因此,最容易想像的人工智慧偏差造成傷害的場景可能不是來自重要機構的主要研究人員。相反,它是一個第三層的技術承包商或軟體供應商,將一些它並不真正理解的開放源代碼組件、庫和工具捆綁在一起,然後將其出售給一個在標籤上看到「AI」並且不問問題、將其交給最底層員工,並告訴他們做「人工智慧」所說的任何事。這就是在資料庫上發生的情況,它不是人工智慧的問題,甚至不是「軟體」問題,這是一個「人類」問題。

結論

「任何你可以訓練狗去做的事情,機器學習都可以做——但是你永遠不能完全確定你訓練狗做什麼。」

我經常認為「人工智慧」這個詞在這樣的對話中是無濟於事的。它造成了一種很大程度上的錯誤印象,即我們實際上已經創造了智能,但實際上並沒有。它們只是機器,比洗衣機更有用一點。洗衣機洗衣服比人好得多,但是如果你把盤子而不是衣服放進洗衣機,然後按啟動鍵,它還是會把它們洗乾淨,但這並不是你想要的結果。洗衣機不知道什麼是衣服或盤子,它只是自動化的一種形式,在概念上與以前的自動化浪潮並沒有什麼不同。

也就是說,正如汽車、飛機或資料庫一樣,這些系統既可以是非常強大的,也可以是非常局限的,這完全取決於人們如何使用它們,取決於人們對這些系統的工作方式意圖是好是壞,以及人們受教育的程度。

因此,「AI 是數學,它不可能有偏差」的說法是完全錯誤的。但是,說 ML 是「固有的偏差」也是錯誤的。ML 在數據中找到模式,至於是什麼模式取決於數據,而數據取決於我們,我們如何處理它取決於我們自己。正如前面所說,機器學習比人更擅長做某些事情,就像狗比人更擅長發現毒品一樣,但你不會根據狗的證據來定罪。狗比任何機器學習都聰明。

via:https://fanyi.baidu.com/?aldtype=16047#auto/zh

雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

創新賽制點燃青春焰火,亮劍都是真英雄!
關於金融區塊鏈,這是我們和趣鏈科技的一場對談

TAG:雷鋒網 |