人工智慧的演算法黑箱與數據正義

科技 03-08

全球技術地圖

創新丨前沿丨科普丨資訊

人工智慧的演算法依賴於大數據，而大數據並非中立。它們從真實社會中抽取，必然帶有社會固有的不平等、排斥性和歧視的痕迹。

一個月前，《終極演算法》作者、人工智慧著名學者、華盛頓大學教授 Pedro Domingos 在社交網路中寫道：「自 5 月 25 日起，歐盟將會要求所有演算法解釋其輸出原理，這意味著深度學習成為非法的方式。」一石激起千層浪。人們不禁要問：歐盟為何出台這個法規？以深度學習為核心的人工智慧真的會遭遇重大挫折嗎？中國應當借鑒並仿效嗎？

利用人工智慧的自動化決定

儘管真正擁有知覺和自我意識的「強人工智慧」仍屬幻想，但專註於特定功能的「弱人工智慧」早如雨後春筍般湧現。在萬物互聯的背景下，以雲計算為用，以個人數據為體，以機器學習為魂的智能應用已經「潤物細無聲」。

從今日頭條的個性化推送到螞蟻金服的芝麻信用評分，從京東的「奶爸當家指數」到某旅遊網站用大數據「殺熟」，個人信息自動化分析深嵌入到我們日常生活之中。在法律上，我們稱之為「基於個人信息的自動化決定」。簡單來說，就是通過自動化的數據處理，評估、分析及預測個人的工作表現、經濟狀況、位置、健康狀況、個人偏好、可信賴度或者行為表現，進而利用這種「數據畫像」（profiling），在不同的業務場景中做出有關數據主體的各項決定。

人工智慧的自動化決定一方面可以給我們帶來便利，比如智能投顧或智能醫療；但另一方面，它絕非完美無缺，它不僅可能出錯，甚至還可能存在「惡意」。

美國馬薩諸塞州的居民John Gass便深受其害。聯邦調查局的反恐識別系統將他誤認為是另一位司機，並吊銷了他的駕駛執照，於是，他不得不費時費力，讓當局相信他不是那名司機。其實，John Cass已經非常幸運。在美國，每周超過1000人被機場使用的演算法錯誤地標記為恐怖分子。一名美國航空公司的飛行員在一年中被拘留了80次，因為他的名字與愛爾蘭共和軍領導人的名字相似。這還不算是最糟糕的。

人工智慧的演算法依賴於大數據，而大數據並非中立。它們從真實社會中抽取，必然帶有社會固有的不平等、排斥性和歧視的痕迹。例如，為了在Twitter上與千禧一代進行對話，微軟開發了Tay聊天機器人，它旨在學習如何通過複製網民的語音來模仿他人。可僅僅在試用24小時後，它就被引入歧途，成為支持種族滅絕的反女權主義的納粹分子，以至於發出了「希特勒無罪」的消息。更有甚者，美國法院用以評估犯罪風險的演算法COMPAS，亦被證明對黑人造成了系統性歧視。

無論是程序錯誤，還是演算法歧視，在人工智慧的前沿領域——深度學習中，都變得難以識別。

華盛頓特區的Sarah Wysocki是一位被普遍認可的老師，但當2009年政府用一個自動化決定程序來評價教師表現時，她和其他205人因得分不佳被解僱。據稱，該決定以少數學生的成績為依據，可學校始終無法解釋為何優秀教師會落得如此下場。

華盛頓學校的難題有著深層次原因。與傳統機器學習不同，深度學習並不遵循數據輸入、特徵提取、特徵選擇、邏輯推理、預測的過程，而是由計算機直接從事物原始特徵出發，自動學習和生成高級的認知結果。

在人工智慧輸入的數據和其輸出的答案之間，存在著我們無法洞悉的「隱層」，它被稱為「黑箱」（black box）。這裡的「黑箱」並不只意味著不能觀察，還意味著即使計算機試圖向我們解釋，我們也無法理解。哥倫比亞大學的機器人學家 Hod Lipson把這一困境形象地描述為「這就像是向一條狗解釋莎士比亞是誰。」

《統一數據保護條例》的應對

正是因為人工智慧的自動化決定對個人權利的重大影響，將於2018年5月25日生效的歐盟《統一數據保護條例》（GDRR）在1995年《數據保護指令》（Directive 95/46/EC）的基礎上，進一步強化了對自然人數據的保護。

首先，尊重個人的選擇權。當自動化決定將對個人產生法律上的後果或類似效果時，除非當事人明確同意，或者對於當事人間合同的達成和履行來說必不可少，否則，個人均有權不受相關決定的限制。

其次，將個人敏感數據排除在人工智慧的自動化決定之外。根據《統一數據保護條例》第9（1）條，「敏感數據」即有關種族、政治傾向、宗教信仰、健康、性生活、性取向的數據，或者可唯一性識別自然人的基因數據、生物數據。由於這些數據一旦遭到泄露、修改或不當利用，就會對個人造成不良影響，因此，歐盟一律禁止自動化處理，即使當事人同意亦是如是，只有在明確的法律規定時才存在例外。

再次，增加數據使用者在個人數據收集時的透明度。根據《統一數據保護條例》第13條（f）和第14條（g），如果個人數據將用於自動化決定，那麼至少應當向個人提供相關決定的重要性、對個人預期的影響以及有關運算邏輯的「有用信息」。

比如，在銀行收集個人數據時，應當告知其可能使用人工智慧對貸款人資質進行審核，而審核的最壞結果（如不批貸）也應一併披露。此外，由於我們都不是技術專家，因此，這裡的「有用信息」不但應淺顯易懂，為每個人理解，而且要有助於每個人主張自己在《統一數據保護條例》或其他法律下的權利。還是以貸款審核為例，當我們覺得被不公正對待時，銀行提供的信息就應當成為法院審理的重要依據。

最後，如果個人對自動化決定不滿，則有權主張人工介入，以表達自己的觀點並提出質疑。這一規定和上述透明度要求相結合，產生了針對人工智慧的所謂「解釋權」，而這正是Pedro Domingos的擔憂所在。考慮到演算法黑箱，深度學習的合法化似乎是個無解的問題。

但事實上，這可能是個誤解。一方面，「有用信息」的提供是在收集數據之時，而非做出自動化決定之後，其意味著個人僅僅概括地了解系統的一般原則即可，並不需要徹底把握某項具體決定的邏輯；另一方面，法律所看重的是「可理解」（explainable），而不是「可闡釋（interpretable）。換言之，它不關注人工智慧內部究竟如何運作，而只關心輸入數據和輸出結果的關聯關係。

在加州大學伯克利分校發布的《人工智慧的系統挑戰：一個伯克利的觀點》（A Berkeley View of Systems Challenges for AI）中，這種關聯性被稱「反事實問題」測試。在個人被拒絕貸款的例子中，人工智慧系統必須能否回答如果諸如「我不是女性，是不是就能批貸？」「如果我不是小企業主，是不是就能批貸」這樣的問題。因而數據使用者有義務建構出一套具有交互診斷分析能力的系統，通過檢視輸入數據和重現執行過程，來化解人們的質疑。這才是「人工介入」的真實含義。

將數據正義引入中國

數據是數字經濟的關鍵生產要素，人工智慧是數字經濟的關鍵產業支柱。如何在發掘數據的經濟價值、發展人工智慧的同時，保障個人的權利和自由，依然是數字社會的未解難題。

當前，我國尚無《個人信息保護法》，在不久前出台的《個人信息安全規範》中，第7.10條「約束信息系統自動決策」也只是賦予了個人提出申請的程序性權利，並不涉及實質約束。

無獨有偶，中國電子技術標準化研究院發布的《人工智慧標準化白皮書》雖然已關注到人工智慧的倫理和隱私問題，但著墨不多，因過於原則而難以實施。就此而言，《統一數據保護條例》可成為我國可資借鑒的他山之石。它不僅僅提供了一系列具象的法律規則，更重要的是它在「數據效率」之外，傳遞出「數據正義」（data justice）的理念。

儘管作為一個發展中的理念，數據正義的含義遠未定型，但「反數據歧視」和「數據透明」必然是題中之意。在數字化生存的今天，不管是「社會人」還是「經濟人」，都首先是「數字人」。

現實空間的我們被數據所記載、所表達、所模擬、所處理、所預測，現實空間的歧視也是如此。從求職歧視到消費歧視和司法歧視，數據歧視前所未有地制度化和系統化。基於此，法律首先要做的就是規定更加小心和負責地收集、使用、共享可能導致歧視的任何敏感數據,可這顯然不夠。

從大數據的相關性原理出發，只是將敏感數據簡單排除並不能保證它們不被考慮。例如，若特定區域的人有著大量的低收入群體或少數族裔，那麼區域的地理數據就可以代替收入或種族數據，用作歧視工具。所以，要識別和挑戰數據應用中的歧視和偏見，「數據透明」就不可或缺。換言之，它要求在數據生產和處理日趨複雜的形勢下，增強個人的知情權，從而修複信息的對稱性。

凱文·凱利

關於這一點，凱文?凱利所講的老婆婆故事是一個絕佳的例子。在故事裡，你住在一個小城鎮，你的鄰居老婆婆知道你的一切動向和行蹤，但你可能不會覺得被冒犯，因為你不在家的時候，老婆婆會幫你看家；更重要的是，你了解關於老婆婆的一切。

從信息窺視的角度，數字時代的政府和企業就像鄰居老婆婆，不過，他們只是部分地做到了第一點，就第二點而言，我們卻還有很長的路要走。

作者丨許可

轉自丨FT中文網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 全球技術地圖 的精彩文章:

※2017年世界前沿科技發展態勢及2018年展望——生物篇
※這就是中國五年的成就！用數字說話！

TAG:全球技術地圖 |