AlphaGo首席研究員親授!十張PPT,十大強化學習黃金法則!
新智元AI WORLD 2018世界人工智慧峰會
倒計時4天
新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,MIT物理教授、未來生命研究所創始人、《生命3.0》作者Max Tegmark,將發表演講《我們如何利用AI,而不是被其壓制》,探討如何直面AI軍事化和殺人武器的出現,歡迎到現場交流!
活動行購票二維碼:
新智元報道
來源:Twitter
編輯:大明
【新智元導讀】近日,谷歌DeepMind強化學習研究團隊負責人、AlphaGo項目首席研究員Dave Silver在Deep Learning Indaba活動的主題演講中歸納出了強化學習中要注意的10大要點。一起來看看,也許能少走點彎路。
近日,在南非斯泰倫博斯舉行的Deep Learning Indaba活動上,谷歌DeepMind強化學習研究團隊負責人、AlphaGo項目首席研究員Dave Silver在主題演講中歸納出強化學習中要注意的10大要點。
活動主辦方將Dave Silver演講的PPT截圖和文字要點發在了推特上,引發了廣泛討論。
Silver的演講中提出的強化學習10大要點涵蓋涉及演算法評估、狀態控制、建模函數等方面的心得和建議,非常值得開發者和機器學習愛好者參考學習。一起看看他是怎麼說的吧!
1、在評估中產生進步
客觀、量化的估計會產生進步,對評估尺度的選擇會決定進步的方向。這可能是項目推進過程中做出的最重要的決定。
目標驅動型研究:確認評估標準與最終目標密切相關。避免主觀評估
假設驅動型研究:提出假設,在寬泛的條件下驗證假設,與相似結果對比,而不是與最先進的結果對比。重要的是對結果的理解,而不是追求排名。
2、演算法的可擴展性決定是否成功
演算法的可擴展性是指其性能隨資源的梯度變化。這裡的資源可能是計算、存儲和數據。演算法的可擴展性決定了能否項目能否成功,它幾乎永遠比演算法的起點重要。最終,好的演算法總是無限資源條件下的最優解決方案。
3、穩定演算法的通用性
演算法通用性是指演算法在不同深度學習環境下的表現。應避免對當前任務的過擬合。積極尋求可以適用於未來未知環境下的演算法。
結論:要廣泛驗證,建立現實的機器學習環境。
4、 信任智能體的經驗
經驗(包括觀察、動作、獎勵)是指深度學習的數據。信任這些經驗,將其作為唯一知識來源。儘管這些經驗看上去不可學習,但最終長期來看,經驗終將取得成功。
5、狀態是主觀的
智能體應該基於經驗建立自身的狀態,智能體的狀態是關於其先前狀態和新觀察數據的函數。任何時候不要定義某一環境下的「真實」狀態。
6、控制數據流
智能體處於大量數據流感測器環境中,智能體的行為會對數據流造成影響。
控制特徵——控制數據流——控制未來——實現任何回報的最大化。
7、價值函數可以對世界建模
價值函數是對未來的高效歸納和緩存。多關注固定時間段的查找,而非指數級的前瞻。可以獨立計算和學習。利用多價值函數可以在不同時間範圍內,對世界各個方面進行高效建模。
應避免使用原始的時間步長對世界進行建模。
8、從想像的經驗中進行學習
想像接下來會發生什麼,從想像的經驗中進行學習,同時關注在當前時刻的值函數估計。
9、加強函數逼近器
差異化網路架構是一種有力工具,可以用來:以豐富的方式表示狀態,實現差異化存儲、差異化規劃、層級控制。
將演算法的複雜性融入網路架構,可以降低演算法的複雜度,增加網路架構的可表達性。
10、要學習「如何學習」
人工智慧的發展史呈現出一條清晰的發展脈絡。
第一代:「美好的」老式人工智慧。手動控制預測,不學習任何內容。
第二代:淺度學習。手動控制特徵,學習預測。
第三代:深度學習。手動控制演算法(優化器、目標、架構),學習特徵和端對端預測。
第四代:Meta學習。無手動環節,學習演算法、特徵和端對端預測。
參考鏈接:
https://twitter.com/DeepIndaba/status/1040234486250782721
新智元AI WORLD 2018世界人工智慧峰會
倒計時4天
門票已開售!
新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智能與人類命運。
大會官網:
http://www.aiworld2018.com/
活動行購票鏈接:
http://www.huodongxing.com/event/6449053775000
活動行購票二維碼:
TAG:新智元 |