了解人工智慧之分類和預測-數據科學中的預測,分類和回歸分析
在上一篇中,我概括地解釋了一些主要的人工智慧概念,包括機器學習,神經網路和深度學習。也概述了當前人工智慧背後的基本原理,提及了從大量樣本中學習的機器學習系統,解釋了深度學習系統能夠更豐富地展現這些樣例。那接下來我們就來說說利用這些人工智慧系統我們今天可以做些什麼,有哪些用途,以及現在的研究領域與方向。
總的來說,我們可以從兩個方面來利用當前的人工智慧系統:
完成更出色的數據科學工作
我們長期以來使用傳統統計方法或軟體工程來處理下面這些數據科學領域的工作。但是在有了機器學習系統以後,我們可以做得更好出色:
預測:根據過去的數據預測未來的情況,如天氣預報或股市分析。
分類:區分照片中的是一匹斑馬還是一匹普通的馬; 文章的敘述是正面性的還是負面性。
回歸分析:分析照片中人物的年齡; 汽車預期的燃油效率等等。
實現真正的人工智慧
機器學習系統還可以完成那些早期計算機系統不能勝任的工作,從這點來看它們也更接近真正的非人類智能:
創造性工作:在學習了大量樣本之後創造出新的事物。
持續學習:通過不斷地試錯,學習完成一些複雜的任務。比如,玩遊戲。
隨著人工智慧慢慢從小說情節變成現實生活,上面第一個方面的能力讓人感覺更觸手可及,而第二個方面則還像是科幻小說中的情節。 這裡我主要討論關於數據科學的內容,這個系列的第三篇我會圍繞創造性工作和持續學習來展開。
預測未來
從歷史數據推廣到未來的情況,我們也稱之為預測。任何大型的組織或機構都離不開這方面的工作:例如「鑒於去年的情況,明年我們的業績會怎樣?」。通常來說簡單的預測模型可能只涉及幾個因素。比如,通過歷史上同一時間的某地氣溫來推測現在的溫度。而更複雜的模型則會涉及更多的參數,有時甚至會超出人類的計算能力。
我們可以用統計學,機器學習和神經網路這三種不同的方法來處理不同的問題:
如果我們要解決類似根據歷史數據預測產品的最佳價格這類的常規業務問題,那就可以遵循傳統的財務或統計模型。
如果我們手頭有很多參考因素,但又不知道如何把它們運用於預測工作,那麼就可以參考機器學習的解決方案,從而找到最適合的模型。 這種問題往往屬於數據科學的範疇,可以通過複雜的電子表格和編程語言(如R)來解決。
如果我們需要通過一些不太容易理解的數據集進行預測,而這些數據集恰恰又不易轉換為簡單數值的話,那麼神經網路可能會有它的用武之地。
神經網路能夠實現與傳統統計學方法相同的數學模型。我寫了一個可以粗略預測氣溫的演示示例。神經網路可以被看成一個黑盒,從而讓反向工程變得相當困難。相反,使用Excel電子表格的話,其中的模型完全是透明的。兩者孰優孰劣就要看實際的應用場景了。
結論:大多數組織機構並不需要人工智慧完成日常財務狀況的預測工作,這樣的預測結果也不容易被驗證或審計。但在許多其他領域,機器學習的方法還是值得一試的。
分類和識別
40年前,人工智慧已經被用來對美國郵政的信件進行分類了。自動手寫識別系統通過給定一個字母形式從而選擇它所代表的字母。通過光學字元識別系統,人們明確地告訴機器線條組合映與字元的映射關係。這在當時屬於人工智慧的一個例子,但它卻不是「機器學習」。相比之下,當前的神經網路可以在沒有人類明確指導的情況下,「自己」學習完成某項任務。
深度學習之所以備受矚目,是因為你可以將任何分類問題交給它來解決(只要你有足夠多的樣本來讓其進行學習)。在機器學習出現之前,人工智慧系統僅限於人類可以枚舉的所有特徵,例如識別由有限的一組字母,數字和標點符號組成的郵政地址。隨著問題複雜度的增加,人類「導師」本身則成了系統的瓶頸。而機器學習讓我們擺脫了這個困境。
識別圖像
經過訓練的深度學習系統可以非常快速地進行分類任務。自動駕駛汽車使用攝像機和其他感測器來識別重要的現實世界對象,比如樹木,公共汽車和交通信號燈等。不過,它們還有許多地方需要改進,而這也是自動駕駛汽車還沒真正駛上馬路的原因之一。 機器學習系統仍然在視覺識別任務方面還有許多難題需要解決,例如如何在任何照明條件下來準確識別物體,這方面人的眼睛可以相對輕鬆地到達目標。 相反的,如果分類任務要求人類受過非常專業的訓練,比如識別腫瘤,深度學習系統可能會做得更出色。畢竟神經網路系統能在較短的時間內完成大量的樣本學習,而這對於人類則是不太可能的。
識別語言
除了識別字母之外,機器學習系統還可以在語義層面執行語言分類任務。通過查看許多標記過的句子,他們可以被訓練用來回答問題,「這兩個句子是否意味著相同的事情?」,「這家餐廳是正面還是負面?
自然語言系統可以有效的對人類語言進行分析。 由於社交媒體的出現,一場文字的海嘯正在向我們襲來。也許再好的自然語言系統也比不上人類的語言能力,但是它卻能夠處理完任意一個社交媒體上所有的文字信息。
總結:深度學習方法特別適用於對複雜的,原始的數據進行分類。如果經過適當的訓練,神經網路可以在圖像中發現微妙的模式,這在醫學診斷中具有深遠的影響。機器學習也可以應用於理解人類語言,但目前人們還只能把它當成自然語言研究的輔助工具。
回歸分析
有時我們的分類問題有可能不是非此即彼的明確判斷(「正或負」,「是貓還是狗」)。就好比我們在預測天氣時,不僅有確切的溫度值預測,同樣還可能有「晴天」或「多雲」的分類判斷。這類問題我們就稱為回歸分析。
和基於時間的預測一樣,在回歸分析領域,我們已經有了很多現成的演算法與技術。大多數情況下,我們並不需要在這個已經很成熟的學科領域使用機器學習系統。我們可以利用神經網路探索那些新的問題領域。
我認為基於神經網路的預測已經不僅僅能處理純數字數據了。與之前提到的分類問題一樣,深層神經網路可以根據各種人類行為數據進行真實價值的預測,比如基於財務報表分析股票波動。
為了驗證我的想法,我用了四萬幅名畫訓練了一個深度學習網路,然後要求它推測出作品的創作年份。平均來說,它推測出的成畫年代與真實年代有65年左右的誤差。顯然人類專家做出的判斷會更準確,但比起普通人來說這已經是一個不錯的成績了。
左邊是真實年代,右邊是推測的年代。這裡有完整的代碼,同時這個是項目的筆記,包括了圖表和更多的訓練樣本。
總結:根據在訓練中提取出的特徵,神經網路可以比傳統的統計模型更好地進行回歸分析,特別是對那些數據間的相關性並不容易被發現的場景,神經網路便能發揮它的優勢。
從科學到小說
隨著互聯網的發展,我們面臨著數據的大爆。海量的文本,視頻,音頻數據需要進行處理,而這已經遠遠超出其他技術的能力,不過幸好現在我們有了機器學習這個強大的工具。深層神經網路的作用不僅僅於此,它還有著創造能力,並」學會「與人類在現實世界中進行互動。請參閱這個系列的第三篇:
本文由北郵@愛可可-愛生活老師推薦,@阿里云云棲社區組織翻譯。
文章原標題《AI Literacy: How artificial intelligence classifies and predicts our world - Part 2: Better data science with prediction, classification, and regression》
作者:Liza Daly 軟體工程師,擔任過Safari 公司的CTO。涉及的領域包括機器學習,數碼藝術和電子讀物出版等。
譯者:friday_012 審閱:
※Terraform助力ECS實例藉助RAM管理阿里雲產品
※擁抱API經濟:教你三步使用SDK玩轉阿里雲API
※聽阿里雲CDN安防技術專家金九講SystemTap使用技巧
※一張表的設計優化節省了兩百萬,客戶不斷盛譽,他做對了什麼?
TAG:雲棲社區 |
※人類行為預測:居住數據的分析和預測
※周易預測術數學分類大全
※分析師:黃金、比特幣、美股走勢分析預測
※人工智慧驅動的預測分析:金融機構的新機遇
※世界盃分析推薦:澳大利亞VS秘魯比分預測
※人員招募和人工智慧的三個預測
※世界盃預測分析:烏拉圭 vs 葡萄牙 前瞻分析
※四柱中用神和忌神的預測分析與階段的力量和人物的主觀改造。
※世界盃比分預測:阿根廷對法國比分預測
※《機械姬》:人類的預測與不可預測
※今日推薦項目:以人工智慧、深度學習和卷積神經網路為基礎的大數據預測分析和實時決策系統在智能化物聯網和雲平台上的應用
※世界盃足彩分析推薦:烏拉圭VS沙特比分結果預測
※關於四柱八字預測學模型的探討與分析
※2018世界盃烏拉圭對葡萄牙陣容分析和比分預測:必看全面數據分析
※分析預測服裝批發的前途
※科學家發表大膽理論:人類的死亡時間可被預測,從基因數據中可以看出
※人工智慧準確地預測了放射性塵埃的分布
※科學家預測計算機未來可用數據傳輸人類個性
※NBA球員場上位置的預測分析
※人工智慧的未來:預測20年之後的人工智慧會達到什麼標準?