當前位置:
首頁 > 新聞 > 強化學習的時代,機器被指導「自主學習」

強化學習的時代,機器被指導「自主學習」

技術突破:強化學習(Reinforcement Learning,RL)是一種人工智慧方法,能使計算機在沒有明確指導的情況下像人一樣自主學習。


重要意義:假如機器不能夠自主通過環境經驗磨練技能,自動駕駛汽車以及其他自動化領域的進展速度將受到極大地限制。


主要研究者:

- DeepMind - 科大訊飛


- Mobileye - 阿里巴巴


- OpenAI - 微軟亞洲研究院


- Google - 中科院

- Uber - 百度


成熟期:1~2年



強化學習的時代,機器被指導「自主學習」



強化學習技術,正是AlphaGo能夠掌握複雜的圍棋遊戲,並擊敗世界最強職業選手的關鍵。如今,強化學習正在迅速發展,並逐步將人工智慧滲透到除了遊戲之外的各個領域。除了能夠提升自動駕駛汽車性能,該技術還能讓機器人領會並掌握以前從未訓練過的技能。

本質上,強化學習技術是從自然界中學習的一種基本法則。心理學家愛德華·桑代克(Edward Thorndike)在100多年前也注意到了這一點。在最著名的迷箱實驗中,桑代克將貓放在一個迷箱中,貓只能通過按壓一個控制桿才能逃脫。觀察結果顯示,經過相當長時間的來回徘徊,動物最終總會偶然地踩到控制桿,然後逃脫。


一些最早期的人工智慧研究者認為,迷箱實驗的過程有可能在機器中有效地重現。早在1951年,馬文·明斯基(Marvin Minsky)創造了世界上第一台具有學習能力的機器,利用簡單形式的強化學習方法模擬了一隻老鼠如何學習走出迷宮。


然而,隨後的幾十年里這個領域幾乎沒有什麼喜人的成績。1992年,IBM的研究員傑拉爾德·特索羅(Gerald Tesauro)演示了一個使用人工智慧技術玩西洋雙陸棋的程序。很快,這個程序就玩的非常熟練,並足以與最好的人類玩家競賽。這是人工智慧發展史上一個里程碑式的成就。



強化學習的時代,機器被指導「自主學習」


強化學習技術之所以行得通,是因為研究人員找出了如何讓計算機程序計算出每種狀態下應該分配的強化值的方法。還是以迷箱實驗為例,在走出迷宮的過程中,「模擬老鼠」每一次做出「向左轉」或者「向右轉」動作時,計算機程序會做出獎或懲的評價。並且,所有分配的強化值都存儲在一張大表格中,然後計算程序會隨著學習的過程逐步更新這些數據。


但對於大型複雜的任務,這種方法在計算上是不切實際的。然而,近幾年來,深度學習技術被證明是一種用來識別數據模式的極其高效的方式,無論這裡的數據指的是迷宮中的轉彎、圍棋棋盤上的位點,還是計算機遊戲中屏幕上的像素,亦或是自動駕駛時面臨的複雜路況。



強化學習的時代,機器被指導「自主學習」


在國內,以科大訊飛為例,這家公司已經針對強化學習在多個方向展開了研究和應用,包括人機對話系統、智能客服系統、機器輔助駕駛、機器人控制等方向,都已有了應用研究。以對話系統這樣一個多輪人機交互系統為例,它就是一個非常典型的強化學習應用案例。


傳統的任務完成型對話系統,用戶需要在一次交互過程中把自己的需求描述清楚,這樣的交互不是自然的。在訊飛的AIUI交互系統框架中,引入了多輪交互的思想,由一個深度強化學習(馬爾庫夫決策過程)模型來引導用戶輸入需求,從而快速、自然流暢地完成用戶任務。



強化學習的時代,機器被指導「自主學習」



同時,許多工業機器人製造商也將目光投向了強化學習技術,測試該技術在無手工編程情況下訓練機器執行新任務的效果。此外, Google公司的研究人員也正與DeepMind合作,試圖利用深度強化學習(deep reinforcement learning)技術使其數據中心更加節能。


通常,找出數據中心各個單元如何影響系統總能耗是十分困難的,但是強化學習演算法能夠從收集的數據以及模擬實驗中學習經驗並提出優化建議,比如說,如何以及何時啟動冷卻系統。

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DeepTech深科技 的精彩文章:

自動駕駛貨車上路,道路運輸迎來「解放雙手」的革命
360自拍,開啟全民直播時代
超級計算機被甩幾條街,量子計算鋒芒初露
清潔時代的「烏托邦」將寄希望於太陽能熱光伏電池
核電巨頭東芝遭重創或再無緣全球核建設,中國有望崛起

TAG:DeepTech深科技 |

您可能感興趣

機器如何學習?5分鐘弄懂監督學習、無監督學習、半監督學習與強化學習
經濟學家們,請謹慎使用機器學習
意境教學,讓學員更好的學習動作
「霧化學習模式」讓職場學習更輕鬆
學習
向植物學習愛情,學習相守
深度學習PK傳統機器學習
學習魔方與學習數學之感悟
自動駕駛及其中的機器學習概述
強化學習的福音!自然語言幫助互動式機器學習演算法提高效率
教學中培養自主學習習慣
機器學習的潛能
學習柔和
科學家打造「捕食者」機器人,可以自主學習跟蹤獵物
小學生良好的學習態度和學習習慣的養成
傳奇健美運動員的訓練哲學和理念,學習了
學界|定量研究:當前機器學習領域十大研究主題
量子物理推動機器學習
新主播必要學習的化妝技巧