10行代碼,用大腦重量預測體重!矽谷AI網紅親身示範
Siraj Raval 作為深度學習領域的自媒體人在歐美可以說是無人不知、無人不曉。
憑藉在 Youtube 上的指導視頻,Siraj Raval 在全世界吸粉無數,堪稱是機器學習界的網紅。說他是全球範圍內影響力最大的 ML 自媒體人,怕也無異議。
因此,雷鋒網 AI 研習社聯繫到了 Siraj 本人,並獲得授權將他最精華的 Youtube 視頻進行字幕漢化,免費推送給大家。我們將不定期更新,敬請關注!
雷鋒字幕組為大家最新譯制了Siraj深度學習系列,從機器學習和神經網路架構類型到數據可視化、小樣本學習等從基礎到應用的技巧,爭取帶領希望掌握神經網路的神奇魔力和想成為深度學習工程師的大傢伙早日入坑!哦不,走向巔峰!!
(建議在 Wi-Fi 環境下觀看視頻,土豪隨意~)
為了方便流量不足的小夥伴們在路上看,我們特意整理出了文字版和動圖~
通常而言,編程是通過定義每一個步驟來使一個程序完成預期結果,但是機器學習將這一過程反轉。機器學習讓我們先定義結果,然後程序去學習步驟以達成目標。
比如,如果想做一個識別車牌的程序,不需要寫代碼去識別車牌的數百個特徵(比如某些字母的形狀和顏色),我們只需要給一些車牌的樣例,讓程序去學習識別車牌所需的步驟。或者想做一個永不言敗的超級馬里奧,不需要為每一種可能的情景寫代碼(比如當看到一個烏龜向跑來時要起跳)我們只需要定下目標——活著到達終點,讓機器學習整個步驟從而實現目標。
但有時我們甚至不知道這個步驟是什麼。如果一家銀行懷疑有欺詐行為發生,但是不知道如何查探。這時就可以利用所有用戶活動的日誌,找到有異常的用戶,機器會學習來檢測異常。
機器學習在互聯網早已無處不在,主流服務都在使用它。事實上 當在你看視頻時,視頻網站就在用它來預測你可能會喜歡的視頻,而且它的預測能力會隨時間不斷增強。
所有的互聯網設備,從冰箱、汽車到個人助理,都將不斷學習和適應我們的需求。你知道一萬小時定律嗎?我們只要將那些訓練時間交給機器,它會立即賦予我們超能力,任何人都可以譜寫交響樂,任何人都能導演電影。
機器學習這個領域目前進步地很快,研究者們都基於相互的成果進行深入研究,已經有了很多機器學習模型,其中之一被稱為神經網路。當我們不只是使用1或2層的神經網路,而是多層神經網路來做預測時,我們稱之為深度學習。它是機器學習的一類演算法,在處理許多不同的任務上幾乎勝過所有其他模型。
下一講將深入介紹深度學習,但這個視頻重點在機器學習。
我們通常將機器學習分為三類:
監督學習(supervised learning)
給模型一個有標籤的數據集,比如汽車圖集,它會得到何為正確或者錯誤的反饋,只需要學習標籤和數據之間的映射關係,就能解決一些給定的任務,比如根據圖中車的類型來分類,這相對來說比較直接,我們已經取得了不錯的成果。
無監督學習(unsupervised learning)
給一個模型一組沒有標籤的數據,它得不到正確性的反饋,需要自學數據集的結構來解決一些特定的任務,實現的難度變大但更有效,因為不是每個人都有一個完美標籤的數據集,大多數據是沒有標籤的,數據混亂且複雜。
強化學習(reinforcement learning)
它不會立即給模型反饋,除非它到達目標。如果我們想創建一個強化學習的機器人,可以學棋擊敗人類,它只會在贏得了比賽的情況下得到反饋。而在監督學習中每一步都會得到反饋。在無監督學習中,即使贏了也無法得到反饋。不同於其它兩種學習方式,強化學習通過試錯與環境產生交互連接。
用一個不同動物的大腦重量測量值的數據集,想要在給大腦重量出情況下預測其體重。由於我們的數據有標籤,這就屬於監督學習。這個任務用到的機器學習,我們將其稱為回歸(regression),我們寫了10行的python代碼來實現,步驟如下:
先導入三個庫:
pandas用來讀取數據集
scikit-learn這是此例中我們使用的機器學習庫
matplotlib將實現模型和數據的可視化
現在我們已經導入了所需的庫,可以用pandas來讀取數據。我們將使用read_fwf函數來讀取動物數據集,將固定格式的數據轉換為pandas的DataFram對象。這是一個二維數據,數據集包含多種動物的平均大腦重量和體重。
點擊播放 GIF/1047K
當數據作為DataFrame的變數,很容易分析並將測量值讀取為兩個不同變數。將大腦重量測量值存在x_values變數中,體重測量值存在y_values變數中。現在當我們要繪製這組數據的二維圖表:
點擊播放 GIF/300K
我們的目標是給定一個新的動物的體重,就能夠預測它的大腦重量,該怎麼做呢?還好有線性回歸(Linear Regression)。
用sklearn的線性模型對象來初始化線性回歸參數,並將其參數儲存在body_reg變數中。然後我們用成對的x、y值來訓練這個模型,現在我們有最佳擬合的線,我們可以在散點圖上畫出我們的x、y值,然後在每一個x值下預測對應的y值,畫出一條與這些點相交的直線,然後我們可以用show()來顯示。
點擊播放 GIF/684K
在終端編譯這段代碼,我們所有的數據點會出現在散點圖中,x軸表示腦重量, y軸表示體重,回歸線對大部分的數據都比較擬合。看起來在腦重量和體重之間有非常強的相關性。當我們移動這條線時,還可以預測任何給定的腦重量的對應體重。
簡單來說,傳統編程是定義每一步來達到目標,而機器學習是定義目標,我們的程序將會學習步驟以達目標。線性回歸模型顯示了自變數和因變數的關係,得出最佳擬合的線,然後就可以用擬合線來做預測。
※如何用深度學習推薦電影?教你做自己的推薦系統!
※為什麼國內智能音箱難敵 Amazon Echo和Google Home?
※遠場語音交互體驗的思考:Alexa 為什麼不用屏幕和多輪對話?
※英偉達股價暴漲17%、5大AI新品,GTC上黃仁勛都講了啥?
TAG:唯物 |
※MIT史上首次用AI控制動物大腦活動!| 矽谷洞察
※矽谷 AI 發展簡史:AI 和區塊鏈都是死路一條?
※矽谷數模面向下一代4K 120 FPS AR/VR頭顯推出ANX7538/39 AR/VR頭戴式顯示控制器
※矽谷IT大牛推薦10種機器學習框架,程序員跳槽漲薪攻略!
※AI早報:BAT投資AI超矽谷巨頭 雲從科技B+輪融資10億
※AI NEXTCon 矽谷AI技術峰會大咖來襲
※CBC熱讀 Vol.2:矽谷頂級孵化器YC掌門人的高效清單
※手持CRISPR基因編輯技術設備可在15分內測出遺傳性疾病|矽谷最新
※聲稱AI訓練性能超GPU1000倍的AI晶元初創公司竟要收購矽谷「老前輩」MIPS
※CRISPR基因編輯設備可在15分內測出遺傳性疾病—矽谷最新
※專訪《矽谷百年史》作者:AI、基因編輯如何在未來10年重塑人類生命形態?
※重磅推薦:2017年矽谷人都在看的10大互聯網科技圖書
※AI只跟科技巨頭有關?小公司如何在AI時代競爭?| 矽谷最新
※矽谷首場AI硬體峰會幹貨報告:AI晶元井噴期即將到來
※AI、基因編輯如何在未來10年重塑人類生命形態?| 矽谷洞察
※2018中國科技IPO觀察:融資額佔全球40% 數量及金額遠超矽谷
※2018年CAI百富排行榜啟動大會圓滿成功,中原矽谷&胡潤帶您遇見財富
※NASA發現火星有水源,豐富易挖采,「矽谷鋼鐵俠」的計劃或可實現
※「矽谷商學院」2018全球顛覆性創新峰會(GDIS):區塊鏈的時代,強勢來臨,火熱報名中
※【矽谷】高通發布AR/VR設備專用晶元 Snapdragon XR1