谷歌PAIR新進展:Facets開源,有助於機器學習數據分析
近日,谷歌推出了一項名為「PAIR」(People + AI Research)的AI項目,旨在讓AI系統的內部工作機制變得更加透明,促進智能機器與人類緊密合作。通過PAIR項目,谷歌發布了Facets——這是一款開源可視化工具,可以幫助用戶理解並分析各類機器學習數據集。
Facets有兩種可視化方式,能夠讓用戶在不同尺度下查看圖像所有數據特徵,比如使用「Facets Overview」功能可以了解數據的各個特徵形狀,而使用「Facets Dive」功能可以單獨分析一組數據。
GIF/1.9M
眾所周知,要想從機器學習(ML)模型中獲取最佳結果,對數據細緻了解必不可少。然而,ML數據集可以包含數億個數據點,每個數據點由數百(甚至數千)的特徵組成,幾乎不可能以直觀的方式了解整個數據集。藉助可視化,我們可以洞悉大數據集中的細微之處。一張圖片或許可以傳達一千字的信息,但藉助互動式可視化工具我們可以獲取更多的信息。
新的可視化方式為我們提供調試數據的功能,而這在機器學習過程中,這與模型調試一樣至關重要。該功能可以嵌入到網頁中使用。除了提供開源代碼外,谷歌公司還創建了一個Facets演示網站(https://pair-code.github.io/facets/),該網站允許所有人直接在瀏覽器中可視化自己的數據集,無需安裝其它軟體或進行附加設置;並且,使用者可以放心數據不會從電腦泄露出去。
以下是這兩種功能的具體信息:
Facets Overview功能
Facets Overview可以讓用戶快速了解其數據集特徵值的分布情況,而且,在分析訓練集和測試集時,可以同時進行多個數據集可視化。更可貴的是,它能發現機器學習過程中可能出現的問題,例如:非預期特徵值、高百分比缺失的特徵值、不平衡分布的特徵以及數據集之間特徵分布偏差。
圖丨如上圖所示,Facets Overview進行了UCI人口普查數據集的六個數據特徵可視化。它按照不均勻性排布,頂部是分布最不均勻的特徵,紅色數字表示可能的故障點,在這個例子中,有高百分比值的數字特徵設置為零。右側的直方圖可以比較訓練數據(藍色)和測試數據(橙色)之間分布的不同。
圖丨上圖所示,Facets Overview可視化方式展示了UCI人口普查數據集的九個分類特徵中的兩個,其特徵按照分布距離排序,圖表上部分給出了訓練數據(藍色)和測試數據(橙色)之間具有的最大偏差。在「Target」一欄我們可以注意到,訓練數據集和測試數據集的標準值有所不同,這在數據特徵表格和頂部列表的條目中都有所體現。這一差錯將導致數據集進行訓練和測試的模型失效。
Facets Dive功能
Facets Dive功能則提供了一個易於定製的直觀界面,可用於探索不同數據集的特徵對應的數據點關係。使用Facets Dive可以根據特徵值來控制每個數據點位置、顏色和視覺顯示。如果數據點具有與其相關聯的圖像,該圖像即可用作視覺顯示。
圖丨圖中顯示了Facets Dive可視化方式對大量「Quick, Draw!」臉部塗鴉圖片的處理效果,結果顯示「Quick, Draw!」圖片被正確分類與圖片中筆畫和點的數目的關係。
有趣的發現:在類似CIFAR-10大數據集中,小的人為標籤錯誤很容易被忽視。不過,使用Facets Dive功能分析CIFAR-10數據集可以發現一隻「青蛙貓」——一張被錯誤標記為貓的青蛙圖像。
圖丨你能發現青蛙-貓嗎?
※GitHub上最流行的28個開源機器學習項目
※十大必須掌握的機器學習演算法,你都知道了嗎?
※基礎 | 10幅圖解釋機器學習中的基本概念
※谷歌開源機器學習可視化工具 Facets:從全新角度觀察數據
※「硅腦」專家不是夢——機器學習在分子生物學領域大顯身手
TAG:機器學習 |
※Learn with Google AI:谷歌開放更多免費AI及機器學習在線資源
※Windows Defender ATP機器學習和AMSI:發掘基於腳本的攻擊
※FAIR開源Tensor Comprehensions,讓機器學習與數學運算高性能銜接
※FAIR 開源 Tensor Comprehensions,讓機器學習與數學運算高性能銜接
※二十大Python人工智慧與機器學習開源項目,TensorFlow升為榜首
※Google推出AI晶元Edge TPU,可在邊緣運行TensorFlow Lite機器學習模型
※用Scratch+IBM Watson實現機器學習
※使用TensorFlow,Kafka和MemSQL進行實時機器學習
※Databricks 開源 MLflow 平台,解決機器學習開發四大難點
※Mac上訓練機器學習模型,蘋果WWDC發布全新Create ML、Core ML 2
※從Emotech Olly機器人 看AI對HMI革新的嘗試
※開源項目精選:機器學習開源框架 TensorFlow
※在Mac上訓練機器學習模型,蘋果WWDC發布全新Create ML、Core ML 2
※用機器學習創造獨特聲音,谷歌開源NSynth Super
※開源機器學習伺服器——PredictionIO
※NASA機器人上的Peratech QTC的技術
※用AI 打造遊戲,Unity 機器學習 Agent——ml-agents
※谷歌發布機器學習規則 (Rules of Machine Learning):關於機器學習工程的最佳實踐(下)
※樂高BrickHeadz系列新品登場;《復聯3》Egg Attack Action系列;Pepper機器人將進入中國
※英特爾宣布Windows機器學習Movidius Myriad X VPU