密歇根大學科研課題：強化學習在經典控制問題中的應用

天下 10-16

科研課題：強化學習在經典控制問題中的應用

強化學習（Reinforcement Learning）是近年來人工智慧領域研究的熱門方向。強化學習面對的是序列決策問題。它旨在特定的環境（Environment）中，利用統計學、機器學習和運籌學的理論，學習一個決策規則（Policy）來最大化總回報（Reward）。強化學習有著非常廣闊的應用場景，包括現在日趨成熟的Atari遊戲、棋牌遊戲和Moba類遊戲AI，以及自動駕駛、機器人控制、精準醫療和量化金融等重量級的業界應用。

課題概覽

經典控制問題指通過對槓桿和小車等經典力學研究的對象施加力，使得對象保持或者達到某個預先設定的狀態。傳統的方法往往是研究者針對具體的情景分析受力關係，據此設計施力的大小、方向、時間。傳統方法不具備可拓展性、且耗時耗力。強化學習作為新一代的通用型人工智慧演算法，能夠從環境的稀疏回報（Sparse Reward）中學習到解決問題的策略，因此研究者可以用一套通用的策略解決一系列相似的控制問題，並且可能找到更優的策略。

本課題旨在探究強化學習演算法在經典控制問題中的應用。具體是通過使用不同的機器學習演算法去估計強化學習的策略函數，並且比較他們的不同特點，分析不同演算法的應用場景。同時實現傳統的控制策略，比較二者的優缺點。

相關學科

計算機人工智慧機器學習

應用數學統計學數據科學

控制論最優化方法運籌學

導師：密歇根大學博士

豐富的強化學習、人工智慧等領域的項目研究經驗，並多次在國際期刊上發表論文；

研究方向：強化學習，統計學在社會科學中的應用。

研

課題研究方法

AI＋X數據驅動型科研

AI＋X數據驅動型科研是指使用人工智慧（AI）演算法，收集、處理、分析具體學科（X）的海量數據，並基於此進行預測，從而獲得科學發現的研究方法。與傳統的、基於實驗或邏輯推理的研究方式相比，AI＋X數據驅動型科研可以藉助AI演算法強大的運算能力，高效地進行大數據分析，具有投入產出比高、適用範圍廣的優點。

AI＋X數據驅動型科研已被廣泛地應用於各個領域，利用AI演算法研究基因數據，從而進行早期的癌症篩查便是其中一例。基因組與癌症病患的數據千千萬萬，使用傳統的科研方式對其進行分析，工程量大、過程繁瑣，在客觀上難以實現。但藉助AI演算法這一便捷的工具，生命科學家便能夠以海量的患者的遺傳信息為基礎，建立資料庫，與過往的研究成果進行對照，快速、準確地在兩者中發現規律、建立聯繫，從而使癌症診斷的「標準化」成為可能。

整個科研教學流程中，每一位學員都將有學術督導協助保障研究階段性作業和論文的進度，確保取得研究成果。

獎

科研項目成果

成果1

獨一無二的課題成果

有方學者項目的導師會為每個學生提供獨一無二的課題，連接最前沿的科研方法和學生感興趣的學術方向，保證學生研究內容的差異性。

成果2

在英文期刊中發表學術論文

有方學者項目保證為學員在正規的英文學術期刊中發表論文。有方學者最優秀的學生，不但可以衝擊EI、SCI等高級別期刊，而且有機會參與全球頂級的學術會議。

成果3

第一作者身份

有方學者項目堅持幫助學生以第一作者身份發表論文。在申請過程中，第一作者順位恰恰是學生在科研項目中的參與程度的最佳證明。