當前位置:
首頁 > 新聞 > 測試機器學習模型不用寫代碼!谷歌「what-if」工具輕鬆搞定

測試機器學習模型不用寫代碼!谷歌「what-if」工具輕鬆搞定

新智元AI WORLD 2018世界人工智慧峰會

倒計時8

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,MIT物理教授、未來生命研究所創始人、《生命3.0》作者Max Tegmark,將發表演講《我們如何利用AI,而不是被其壓制》,探討如何直面AI軍事化和殺人武器的出現,歡迎到現場交流!

活動行購票二維碼:

新智元報道

來源:Google AI

編輯:大明

【新智元導讀】Google AI推出「what-if 」工具,用戶完全不需要編寫代碼就能分析機器學習模型。該工具提供互動式可視化界面,用戶可以探索並比較模型結果,可以快速地發現模型中的錯誤。

構建高效的機器學習系統,需要提出並解決許多問題。僅僅訓練模型然後就放著不管是遠遠不夠的。優秀的機器學習從業者要像偵探一樣,時刻注意探索如何更好地理解構建的模型:數據點的變化將對模型的預測結果造成什麼影響?同一個模型對不同的群體會有哪些不同的表現?用來測試模型的數據集的多樣化程度如何等等。

要回答這些問題並不容易。要回答這些「假設」問題,通常要編寫自定義的一次性代碼來分析特定模型。這個過程不僅效率低下,而且除了程序員,其他人很難參與改進機器學習模型的過程。

Google AI PAIR計劃的一個重點就是讓更廣泛的人群能夠更方便地對機器學習系統進行檢查、評估和調試。

今天,我們正式發布What-If工具,該工具是開源的TensorBoard Web應用程序的一項新功能,它允許用戶在不編寫代碼的情況下分析機器學習模型。What-If工具給出了TensorFlow模型和數據集的指針,提供了一個互動式可視化界面,用於探索模型結果。

What-If工具顯示一組250張面部圖片及其檢測微笑模型的結果

What-If工具功能強大,可以使用Facets自動顯示數據集,從數據集手動編輯示例並查看更改的效果,還能自動生成部分依賴圖(partial dependence plots),顯示模型的預測結果隨任何單個功能的更改而變化的情況。

探索數據點上的What-if情景

下面詳細介紹What-If工具的兩個功能。

只需一鍵,自動對比數據點與模型預測最相似點

用戶只需單擊一個按鈕,就可以將數據點與模型預測不同結果的最相似點進行比較。我們稱這些點為「Counterfactuals」,可以顯示出預測模型的決策邊界。用戶也可以手動編輯數據點,並探索模型預測的變化。

在下面的截圖中,該工具用於二進位分類模型,該模型根據美國人口普查數據集的公共人口普查數據,預測一個人的年收入是否超過5萬美元。這是機器學習研究人員使用的基準預測任務,尤其是在分析演算法的公平性時。

在這種情況下,對於選定的數據點,模型預測該人年收入超過5萬美元的信度為73%。該工具自動定位數據集中最相似的人,模型預測其年收入低於5萬美元,然後將選定數據點和與之最相似、但預測結果相反的數據點進行並排比較。如下圖所示,二者只有在年齡和職業上存在微小的差異,但模型的預測結果已經完全相反了。

對Counterfactuals的比較。二人只有在年齡和職業上存在微小的差異,但模型的預測結果已經完全相反

模型性能和演算法公平性分析

用戶還可以探索不同分類閾值的影響,同時考慮不同數值公平性標準等約束條件。下圖所示為微笑探測器模型的結果,該模型在開源CelebA數據集上訓練,數據集是已標記的名人面部圖像。

下圖所示數據集中的面部圖像按照頭髮是否為棕色分開,兩個圖像中的每一組都建立一條ROC曲線和一個預測結果的混淆矩陣,再設置一個置信度滑塊,設定模型必須在超過某一置信度時才能判定目標的面部是微笑的。本例中,What-If工具自動設置兩組的置信度閾值,以優化模型,實現機會均等。

使用What-if工具對微笑檢測模型兩部分數據的預測表現的比較,其中預測模型分類閾值設置滿足「機會公平」

檢測錯誤分類、評估模型公平性、調查模型不同數據集

為了說明What-if工具的功能,我們使用預先訓練的模型發布了一組Demo:

檢測錯誤分類:多類分類模型,模型根據對植物的花的四次觀測來預測植物的種類。What-if工具有助於顯示模型的決策邊界,弄清導致錯誤分類的原因。

評估二元分類模型的公平性:上面提到的用於微笑表情檢測的圖像分類模型。What-if工具有助於評估不同子圖像組的演算法公平性。在該模型的訓練中,有意沒有提供來自特定人群的示例,目的是為了顯現What-if工具如何能夠揭示模型中的這種偏差。對模型預測公平性的評估需要仔細考慮整體背景,不過What-if工具是一個有用的量化起點。

調查模型在不同子群體中的表現:回歸模型可以用於根據人口普查信息預測受試者的年齡。What-if工具能顯示出模型在不同子群體中的相對表現,以及不同特徵如何單獨影響預測結果。該模型使用美國人口普查數據集進行訓練。

What-If工具的實地應用

我們將What-If工具在Google內部團隊中進行了測試,該工具在測試中顯現出了直接價值。有團隊很快發現他們的模型錯誤地忽略了數據集的整個特徵,修復了以前未發現的代碼錯誤。 還有團隊使用該工具將模型示例按性能高到低排列出來,並發現表現不佳的模型示例的運行模式。

我們期待Google內外的人們都來使用What-If工具,以更好地理解機器學習模型,並開始評估預測模型的公平性。 我們的代碼是開源的,歡迎對該工具繼續添磚加瓦。

Github:

https://pair-code.github.io/what-if-tool/

參考鏈接:

https://ai.googleblog.com/2018/09/the-what-if-tool-code-free-probing-of.html

新智元AI WORLD 2018世界人工智慧峰會

倒計時8

門票已開售!

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網:

http://www.aiworld2018.com/

活動行購票鏈接:

http://www.huodongxing.com/event/6449053775000

活動行購票二維碼:


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「榜單」史上最經典36部AI電影大放送

TAG:新智元 |