機器學習,AI進階之匙
□記者 吳 韜
[閱讀提示]
使計算機如人類般獨立思考是科學家的美好願望。但計算機最終能學習到何種程度,長期以來尚沒有科學定論。
近日,關於機器學習的爭論再度被點燃,導火索是三位美國研究者在網站上「隔空喊話」上海交通大學圖像通信與網路工程研究所教授武筱林,質疑他去年一篇論文的結論。在那篇論文里武筱林運用計算機視覺和機器學習技術來通過面部圖像推斷犯罪概率。
自機器學習概念誕生以來,隨之而來的種種話題甚至爭議便從未斷絕。作為引領AI(人工智慧)不斷進階的有效途徑,機器學習將給人類帶來什麼?
讓計算機模擬人類學
人們常常會看到許多強大的人工智慧:在科幻電影里,它是來自未來的終結者。在現實世界中,它是輕鬆擊敗圍棋九段棋手的AlphaGo。
可是人們不禁要問,計算機的巨大智能潛力從何而來?它又是如何變得越來越「聰明」的呢?
答案來自機器學習。
「不要以為機器學習很遙遠,實際上它已經融入我們的日常生活,互聯網的關鍵詞搜索、能根據網頁瀏覽痕迹推薦用戶喜愛商品的網頁彈窗都是機器學習的產物。」河北省科學院應用數學研究所助理研究員馬艷東表示,機器學習是指通過利用計算機系統強大的運算及數據處理能力,藉助大量的數據訓練,使計算機具有自發模擬人類學習行為,通過學習獲得知識和技能,在不斷改善自身性能的同時,實現人工智慧的一種方式。
馬艷東進一步解釋道,「比如計算機要學習識別某類別的圖片,首先會被輸入大量的同類圖片,然後,計算機的處理器和存儲器,會根據圖像數據總結出一個規律,以後再看到類似的圖案,計算機便會根據這個總結的規律,判斷圖片是否是自己認識的。」
那麼人類為什麼要開發機器學習呢?
「現實生活中計算機可以做到許多人類無法做到的事情,比如模擬星系的運動方式、推算其他天體與地球的距離。」馬艷東說,「但這些任務的完成都需要依靠大量的人類工作和繁雜的計算機語言編程,於是科學家便設想讓計算機具有類似人類的學習、認知、理解事物的能力,以幫助人們更好地認識世界、改造世界。正是這樣,機器學習便應運而生了。」
事實上,機器學習的發展並不是一帆風順的,也經歷了螺旋式上升的過程,成就與坎坷並存。作為人工智慧領域發展最快的一個分支,上世紀50年代機器學習研究便伴隨人工智慧概念的出現而起步,但受限於當時的計算機技術發展水平,機器學習曾經歷了相當長的一段低潮期。近年來,特別是2006年以後,隨著深度學習的提出,以及計算機運算速度、存儲能力等計算機硬體技術的進步,機器學習開始迎來爆髮式發展。
在計算機中建立人工神經網路
人類學習、認知外界事物,是通過大腦中複雜的生物電活動和自身獨具的邏輯推理、歸納演繹能力來完成的。
「計算機的學習則不然,它是通過計算機程序,利用各種演算法從數據中學習如何完成任務。」結合自身研究的機器學習模式識別方向,河北省科學院應用數學研究所助理研究員陳宏彩解釋道。
兩者相較有何不同?
「通俗一點說,人類可以通過學習『舉一反三』,而早期的機器學習卻只能做到『說一就是一』,在人類輸入的既有數據範圍內識別和處理相應內容。」陳宏彩向記者介紹。
「就學習效果來說,像決策樹學習等早期的機器學習演算法,雖在特定領域內取得了一定成就,但也存在局限。」陳宏彩說,「它們處理的數據集規模都相對較小,而面對複雜多變的外部環境,這些演算法就顯得簡單和僵化,往往會失靈。」
在不斷嘗試中,科學家找到了一種更為有效的新型機器學習演算法――深度學習。
「簡單地說,深度學習要學習的東西就是一大堆數據,首先,把這些數據丟進一個複雜的、包含多個層級的數據處理網路,然後檢查經過這個網路處理得到的數據結果是不是符合要求。」陳宏彩說,「如果符合,計算機就保留這個網路作為目標模型。如果不符合,就再次修改網路結構,直到輸出的數據滿足要求為止,從而給出問題的最終解決方案。」
據了解,在深度學習中,科學家會首先以數學方式粗略模擬人類腦神經網路運作方式,在計算機內部建立一種人工神經網路。人工神經網路具有很多獨立的層,還有相應的數據傳播方向。工作時,人工神經網路內的一些小型數學函數,會在計算機指令下運算,幫助計算機學習。
「舉個例子,如果計算機要識別狗的圖片,人工神經網路最底層的獨立『神經元』會對圖像進行局部或是逐像素處理,並進行相關特徵提取。雖然『神經元』不了解整張圖片中狗的樣子,但它們會對數據進行自己的權衡和過濾。」陳宏彩說,「在此基礎上,被提取的數據會傳至人工神經網路的下層,如此類推,經過層層的過濾和提取,最後的『神經元』便可根據之前所有人工神經網路過濾後的數據作出判斷,生成最終的結論。而一旦這個人工神經網路結論被計算機記住,這個網路就是一個深度學習模型了,以後便可以用來自動識別狗的圖片。」
「雖然『神經元』的計算會存在誤差,但每層人工神經網路都會有相應的自身設置來反向傳播,以保證計算機以最小的誤差做出相對有把握的判斷。」陳宏彩說,「深度學習的突破之處在於它是靈活多變的,可以隨著事物的複雜性來不斷調整人工神經網路中的相關參數,來真正接近和模擬現實。」
尋找「終極演算法」前路仍漫漫
機器學習正應用於諸多方面,並影響著我們的日常生活。
「去年,我們曾利用深度學習和大數據處理等技術研製了一款套牌車輛檢索系統,來輔助石家莊市公安局通過監控視頻圖像,快速精準的鎖定嫌疑車輛目標。」陳宏彩表示,雖然該系統最終因其他因素未被推廣,但在測試階段,它已可以快速縮小排查車輛範圍,大大減輕公安機關的人工負擔。
「機器學習的下一步會向各種領域方向發展,隨著不同類型的數據越來越多,往後很多任務都可能需要機器學習技術。」陳宏彩表示,除在圖像識別領域,機器學習還在語音識別、自然語音處理、無人駕駛等領域獲得了廣泛應用,甚至在某些領域的表現已經超出了人類預期。
「這一天,機器人可以撰寫小說,可以優先支配自己的快樂,並不再為人類工作。」這段話出自一本由人工智慧機器人創作的科幻小說《計算機寫小說的那一天》。參與這些機器人研發的日本研究人員首先謀劃好小說的基本架構,然後給計算機輸入人物設定、內容大綱等元素,之後計算機便通過機器學習,組織素材創作作品。去年包括這本小說在內的4部人工智慧作品參加了日本「星新一微型小說文學獎」評比,其中幾部作品甚至通過了初賽。
雖然如此,但想要找到機器學習的「終極演算法」來真正達到人類學習的水平,還有很多問題要解決。
人類雖然會利用機器學習,但卻對它生成結論的邏輯一無所知。「以深度學習為例,很難想像目前為止最有效的機器學習方法對人類來說還是個只可意會、不可言傳的黑盒子,聽上去有些不可思議,但事實上就是這樣。」馬艷東稱,「相較以往的編程模式,在深度學習時計算機程序有自己的數據,自己可以生成概率邏輯,人們通常只知道深度學習模型是否工作,卻很難說出模型中的參數取值與最終模型結論間,到底存在怎樣的因果關係。」
其次,機器學習並不是完全「靠譜」,它在理論上不能絕對保證最終一定能得到一個毫無偏見的結論。「機器學習的結論正確需要滿足數據量不能太少、收集的數據有一定的代表性、研究對象本身存在某種規律可循等前提條件。」馬艷東解釋道,「但現實世界中對於一些問題,人類自己尚且不知道正確答案是什麼,又怎麼能保證用無偏見的數據來得出一個客觀的結論呢?」
「機器學習也無法保證在開放環境中百分之百成功。機器學習在應用中,常會出現兩極反轉的情況。在某些特定領域的封閉或半封閉環境下,機器學習的效果可以達到甚至超過人類水準。但一旦到了某些開放環境中,它有時也會錯得非常離譜。」陳宏彩說。
最後還要解決的是成本問題。「現階段的某些機器學習在處理數據方面,還不能脫離人類的大量編程和人工標註樣本,這就需要人類在輸入數據時,進行大量繁重的分類工作,來幫助計算機更好地提取特徵、進行訓練,這一過程需要昂貴的成本,這影響著機器學習的發展。」陳宏彩表示。
發展如此迅猛的機器學習,卻又同時存在各種問題,難免讓人充滿憂思:如果人們只知道計算機學會了做什麼,卻說不清計算機在學習過程中掌握的是一種什麼樣的規律,那這種學習本身會不會失控?再比如,按照這樣的路子發展下去,計算機會不會悄悄學到什麼人類不希望它學會的知識,進而超越了人類智慧?
「也許未來人類會面臨這些問題,但現階段機器學習的技術水平連弱人工智慧都還沒有達到。」美國紐約州立大學終身教授顧險峰認為,雖然如此,但有理由相信,這些答案的鑰匙就隱藏在機器學習之中,未來也還會有更加先進的演算法技術代替深度學習,為計算機帶來真正的智能。
不過為用好這把鑰匙,全球研究者們還有很長的路要走。
※很污的機器學習:從xhamster網站找到喜歡的片子
※微軟Contana智能語音套件介紹&微軟機器學習介紹
※最懂機器學習的圍棋高手,解讀柯潔首戰AlphaGo時的失誤
TAG:機器學習 |