被微軟收購後，Maluuba著手研究多重引導強化學習機

新聞 04-13

Maluuba 位於蒙特利爾（加拿大東南部港市），是加拿大的人工智慧初創公司，於今年年初被微軟收購。雷鋒網了解到，該創業公司及其研究團隊致力於開發一種更為優異的機器智能工具，以分析無結構化文本，從而使人機交互更加自然。團隊日前完成了他們的處女作《Multi-Advisor Reinforcement Learning》，這是該團隊前段時間的工作重心。

其論文強調了「多重引導強化學習機（multi-advisor reinforcement learning）」理論，將問題分解得更加簡單且易於計算。此外， Maluuba 公司正進行有效的嘗試，教會機器一些領導技巧。從而化解以往的困難問題。

被微軟收購後，Maluuba著手研究多重引導強化學習機

有哪些問題亟待解決？

死板，是目前人機交互界面仍然無法克服的難題，並且這種交互很容易出現各式各樣的問題。雷鋒網了解到，雖然目前行業領先的 Siri , Alexa 和 Cortana 已遠遠超過以往的對話系統，但是它們表現出的智能仍然和普通的人類智力相差甚遠。

如果我們從計算機的角度出發，思考這一系統可擁有的最大能力時，我們就可以理解：即使是一個容納儘可能完整體系的模型，也不足以替代工程師創造出特定需求的智能工具，而只能在某些限定下有良好的表現。這就是為什麼你可命令Siri幫你打電話，但是不能要求它組織一場大型晚宴。

強化學習（ reinforcement learning, 機器學習的分支）從被提出以來，倍受智能領域研究工作者的關注。如之前的描述，強化學習從經濟學家的實用性概念中借鑒了新的思想，並不斷嘗試量化並反覆地評估和給出決策。採用「遊戲化」機制處理問題，並圖形化地設置一些智能系統可以優化的「節點」，這樣智能系統就可以改進，而不是直接的為自動汽車定義所有的行駛規則。當駕駛超過雙黃線時，系統可以動態的丟棄一些節點；當系統維持在速度限定內時，系統可以有保留的加入一些節點。這一思想可為系統提供更多的自適應性，但是這仍是一個相當複雜的問題，需要很大的計算量。於是，多重引導強化學習機的到來將巧妙化解這些問題。

被微軟收購後，Maluuba著手研究多重引導強化學習機

問題解決

針對強化學習，Maluuba 試圖解決這些複雜的問題。他們的方法是使用多重「引導者」（「advisors」）的概念來突破問題，將其約減並模塊化。傳統的強化學習演算法採用的是單智能體（ Agent ）強化學習法（Single-Agent reinforcement），但是近期採用多智能體的演算法已經越顯常見了。

在 Maluuba 的訪談中，該團隊展示了一個關於智能排程助手的案例。可能有朝一日，智能演算法會按不同的會議等級分配不同的智能體，而不是讓單智能體學習演算法去安排每一種最佳的會議日程。

困難在於，如何調動所有的智能體相互協作。

Maluuba 最初想到的方法是讓這些智能體像人類一樣分解問題。而讓人們協同的高效工作本就是一個不小的工程，即便分而治之的思想有時可以超過單槍匹馬的決策。因此，解決的方法是讓聚合器（ aggregator ）坐在所有「引導者」的上方來做決定。在 Maluuba 的論文中，每一個引導者針對待解決的大問題都會有不同的側重點。如果引導者們持有不同的觀點，聚合器將站出來進行仲裁。

Maluuba 使用 Pac-Man 女士設計的簡化版程序 Pac-Boy ，用於測試不同的多重引導強化聚合學習框架理論。該團隊渴望學習人類是如何高效的分解問題。另外，如何組織及管理眾多最優聚合器，在理想情況下也是存在一些通用方法的。這就是該團隊熱衷於此的原因。於是他們決定讓機器學習「101領導法則（leadership 101）」。

多強化學習機的優勢何在？

多強化學習機可以大幅度地提升CPU和GPU的計算效率。打破這樣一個計算瓶頸的同時也使得多伺服器並行計算變得更加便於實施。降低計算複雜度是全世界科研工作者研究強化學習時的一把鑰匙。該研究團隊成員表示，這一問題也伴隨著微軟公司發展至今。微軟開啟了 Azure 雲平台，為機器學習團隊搭建了交流渠道。當 Azure 開始運作時， Maluuba 便扮演了語言文本分析領域的重要角色。

儘管強化學習本身並不是一個嶄新的概念， Maluuba 在這上面傾注了大量的資源。團隊成員肯定，團隊已經看到強化學習在 DeepMind 開發的 AlphaGo 上表現出的巨大潛力，未來的聯合研究項目將會帶來更加有效的以及適應性更強的增強學習方法。這或許將為微軟的面向會話的產品帶來更多的用戶。

via Techcrunch，雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※免費！10 本機器學習和數據科學的必讀書籍推薦
※5G時代，為何說谷歌被低估了？

TAG:雷鋒網 |

您可能感興趣

※Google終於開始照顧「親兒子」著手修復Pixel的「一身病」
※DeepMind著手指導AI對關係網路進行推理
※國行才開賣微軟已經著手HoloLens 2代開發
※學iPhone8？三星著手準備異形全面屏，Galaxy S9或許是這個樣子！
※華為著手開發NVMe over IP SSD方案
※Varjo著手研發「人眼解析度」頭顯
※Bethesda著手開發大作中老滾6開發尚未啟動
※看著手裡4000萬美刀的存摺，Kylie Jenner微微一笑，老娘才是最NB的網紅
※跟著手繪時尚插畫家saeko學會日系質感穿搭
※這款App讓你玩著手機能學編程
※還和Waymo牽著手，菲亞特克萊斯勒又入了寶馬、英特爾及Mobileye自動駕駛聯盟
※超模Gigi Hadid和爸爸出門吃飯，倆人手挽著手過馬路！
※丑哭了！iPhone 8原型機泄露，蘋果已著手封鎖消息
※Unity場景美術資源優化，可以從這幾方面著手
※蘋果著手調查iPhone 8開裂事件，據說換屏費都能買個6s了……
※BioWare已著手開發《龍騰世紀》新作或將沿用寒霜3
※早報：微軟神速！已著手設計下一代Xbox
※Riot或要著手做《英雄聯盟》後的第二款新作了
※將教育與技術融合，我們該如何著手開發AIEd系統？