當前位置:
首頁 > 知識 > 下學期的選課,我打算用AI來幫助決定了

下學期的選課,我打算用AI來幫助決定了

選自arXiv

作者:Weijie Jiang、Zachary A. Pardos、Qiang Wei

機器之心編譯

參與:Geek AI、李澤南

除了搜索社交網路、聆聽學長和老師的教誨,我們在選課時還能參考些什麼呢?清華大學和 UC Berkeley 的研究者們最近提交的研究已經用上了人工智慧中的循環神經網路,並取得了不錯的結果。

在該研究中,人們使用了美國 2008 年秋-2017 年春季學期各個專業本科和研究生階段 16 萬學生,共計 480 萬次課程的註冊信息訓練了一個 AI 模型,其課程推薦的成績通過率很高,甚至能讓生物學課程拿 A 的幾率達到 75%。再也不用擔心選錯課了?讓我們看看這是怎麼做到的。

想要順利獲得大學文憑並非一件易事。你需要做出很多具有挑戰性的決定,例如應該報考哪個專業、選修哪些課程以及應該選擇哪種難度級別的課程。做出這些決定需要對風險和回報進行權衡,從而加大了學生們想要最大限度完成多目標的難度,也增加了他們想要規避的風險(例如,在保持高 GPA 的同時,選擇有利於日後找工作的挑戰性課程)。

當我們擁有了充足的關於學生註冊信息、成績以及專業方面的歷史數據後,自然而然地就會想到:機器學習的分析方法能否從這些記錄中提取出一些有助於學生實現他們目標的東西呢?在清華大學和 UC Berkeley 最新的論文中,研究人員基於高等教育中關於預測和推薦的發現和方法,提出了一種基於目標的課程推薦方法。

隨著學生們對數據科學等多種學科的興趣日益濃厚,為提升學生選課的公平性和包容性而提供適當的「智能化傾斜」的重要性也隨之增加。這意味著為來自不同學科背景的學生提供通往成功的途徑。研究人員著眼於這個特定的目標:即根據一個人已有的課程經歷,為感興趣的目標課程找到合適的先導課程。

由於種種原因,大學目前提供的先導課程的信息可能未必十分理想:(1)先到課程信息可能不是最新更新的。(2)這些信息可能不全面,忽視了將來自不同系的課程組合在一起後可以覆蓋要求的先導課程的可能性。(3)他們不考慮每個學生已經學會了哪些知識,因此如果不強制執行,會經常被學生所忽視。(4)這些信息可能包括經常超過選課容納人數上限的課程,學生可能是因為別無選擇才選了這些課程作為替代方案。

看起來的確是人們在大學選課的時候會遇到的問題,基於此,研究人員提出的方法解決了這四個潛在的問題,特別是通過根據學生已經學會的知識的模型對先導課程提出了一些修改的建議。

針對一個學生已學課程的歷史和任意目標課程,向他/她推薦一套合適的課程,無疑是一個棘手的問題。授課教師往往是在他們的學科領域具有深厚知識的專家。非教職的學術顧問對課程有很廣泛的了解,但卻並沒有那麼深入,而且與在校生的數量相比,這兩種資源在高等教育中都是稀缺的。機器學習模型可以根據從大數據中學習到的表徵的廣度和深度進行擴展並獲益,但缺乏輕鬆地根據觀測結果梳理出相關和因果關係之間差異的能力。

在論文中,作者試圖探究:「如果給定足夠的約束條件,人工智慧模型中提取出合理的建議」。對此,研究人員選擇了三種預測驗證方法(成績預測、先導課程預測以及課程選擇預測),目的是綜合這三種驗證信息觀察這種方法是否能在公開環境下進行測試。

由於循環神經網路(RNN)具有魯棒的表示能力和時序建模能力,研究者們選擇它作為擴展到這一基於目標的推薦任務的框架。儘管 RNN 以前被應用於基於協同過濾原則的推薦系統,但它們並沒有在任何領域被重新用於做出更有針對性的基於個性化目標的推薦。因此,對基於目標任務的 RNN 在分類上的的驗證和應用是這項工作的一個新貢獻。

基於目標的推薦方法

首先,研究人員提出了幾個假設:學生對於課程內容有一個「最近發展區」,我們向學生推薦的課程範圍應該限於他們預期能夠成功完成的課程。這就需要訓練一個預測課程成績的模型,類似於應用於教輔系統的深度知識追蹤神經框架。第二個假設是,這種課程表現模型能夠推斷出必要的信息,這些信息可以被用來推薦預期的目標課程的先導課程。為了驗證這個假設,研究使用了大學現有的先導課程列表,並測試成績預測模型推斷這些現有依賴的能力。最後,我們假設,那些在目標課程中取得成功的學生應該更多地遵循我們的模型所產生的推薦結果,而不是那些成績不佳的學生。而這個假設還要在滿足第三個驗證的情況下才成立:在下學期開設一門歷史上難度較大的課程之前,需要先預測前一學期的課程註冊人數。

舉例而言,相關關係與因果關係不同的一個例子是:選修了一門難度較大課程的學生可能會在隨後的學期中取得優秀的表現,這可能不是因為這些難度較大的課程本身具有為後續課程打下基礎的預備價值,而是因為這些自行選擇課程的學生往往本身就成績優異。我們承認數據中存在這種容易混淆的現象,但相信通過這種驗證,再加上第一個假設,即不向不太可能通過考試的學生推薦課程,應該可以緩解這種擔憂。

此外,我們根據課程編號所示的三個劃分級別(即低年級、高年級和研究生),將推薦結果限制在不高於目標課程級別的課程。我們還將推薦結果限制在包含先導課程的院系,而非目標課程所在部門的其他課程。我們假設,這些約束可以減少由於數據中的混淆現象而導致做出嚴重錯誤推薦的可能性。

傳統的循環神經網路(RNN)已經被一些研究人員用於預測序列中的下一個動作。這相當於一種「大多數像你一樣的人跟著你也做了 X」的協同推薦。然而,當我們考慮到學生選擇課程的不同意圖時,學生的目標又往往可能與大多數人的目標不一致。一個簡單的解決辦法是只使用實現了預定目標的學生的數據進行訓練;然而,這種方法卻並不理想,因為它會消除可以學習到更健壯的領域表徵的數據點。這也是不可取的,因為它將需要訓練數以千計的獨立模型,以滿足我們尋找任意目標課程的先導課程的任務需求。

圖 1:模型 1——樸素的課程成績預測模型

圖 2:模型 2——將前一學期的課程成績和本學期課程註冊情況相結合作為隱含層的輸入的課程成績預測模型

圖 3:模型 3—將上學期課程成績、上學期報考的專業、本學期課程註冊情況相結合作為輸出層的直接輸入的課程成績預測模型

數據集

該研究使用了從加州大學伯克利分校收集到的數據集,其中包含了 2008 年秋季至 2017 年春季的匿名處理後的學生課程註冊人數。數據集包含 164,196 名學生(包括本科生和研究生)每學期、總計 480 萬人次的課程註冊信息。課程註冊意味著該學生在學期結束時仍在處於該課程的在讀狀態。學生們在活躍學期的課程負荷中位數為 4。數據集中共包含 10,430 門特色課程,其中 9,714 門特色初級講座課程,這些課程來自 124 個系的 197 門學科,分布於 6 所學院的 17 個不同的學部。在本文的所有分析中,作者們只考慮了初級課程(講座)和在 10 年期間內至少有 20 人註冊的課程。

表 1:數據集中學生註冊信息的示例

表 2:學生課程成績預測模型的評價結果

圖 7:基於目標的推薦系統的模型評價結果(成績閾值:A)

圖 8:基於目標的推薦系統的模型評價結果(成績閾值:B)

由於這是一個因果推理問題,而且我們只能通過觀測數據來訓練模型,所以我們使用這三個來源來驗證一個根據預測成績訓練的模型,以幫助評估模型在現實世界中的表現是否合理。等級為 B 的目標閾值模型在成績預測任務中的得分略高於對比基線,在二分類任務中的準確率達到了 88%,而閾值為 A 的模型的準確率得分較低,為 75%,但明顯優於表現較差的準確率為 50% 的多數類別的對比基線。

論文:Goal-based Course Recommendation

論文地址:https://arxiv.org/abs/1812.10078

摘要:隨著學生們對跨學科學術興趣的增加和學術諮詢資源的不足,探索數據輔助的方法從而指導學生做出決策的重要性達到了前所未有的高度。我們的工作建立在快速發展的高等教育中的預測和推薦問題的前人的研究成果和方法的基礎上,開發出了一種新型的基於循環神經網路的推薦系統,針對我們對學生的先驗知識背景和最近發展區的估計,為他們感興趣的目標課程提供選擇先導課程的建議。我們使用成績預測和恢復大學給出的先導關係的能力的測試來驗證模型。在第三個驗證中,我們在選修一門具有史無前例的難度的課程前一學期,為學生提供了完全個性化的推薦,並觀察了與我們可能的建議之間的微分重疊。雖然不能證明因果上的有效性,但這三個對基於目標的推薦模型性能的評價結果為本工作建立了信心,使我們更接近於在公開環境下部署這種個性化的課程預備功能。

當然,對於大學生來說,一個人的奮鬥還要考慮不同的目標尺度。研究人員表示,未來他們可能會在 RNN 模型中加入對於職業規劃等「長遠目標」的評估,並考慮其他可能的數據來幫助學生進行選課決策。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

NYU、AWS聯合推出:全新圖神經網路框架DGL正式發布
理解卷積神經網路?看這篇論文就夠了

TAG:機器之心 |