當前位置:
首頁 > 新聞 > 首屆北美計算機華人學者年會:伊利諾伊大學劉兵—終身機器學習

首屆北美計算機華人學者年會:伊利諾伊大學劉兵—終身機器學習

新智元報道

來源:SOFC 2017

翻譯/報道:劉小芹,聞菲

【新智元導讀】第一屆北美計算機華人學者年會暨計算技術前沿研討會於 2017 年 6 月9-10日在芝加哥舉行。這是會議是華人計算機學者的頂級盛會,新智元從會議主辦方處獲得了伊利諾伊大學芝加哥分校劉兵教授在會上的演講PPT,劉兵教授以《打造能夠終身學習的機器》為題,介紹了終身機器學習(Lifelong Machine Learning,LML)系統,尤其是 LML 在自然語言處理中的應用。

北美計算機華人學者協會(Association of Chinese Scholars in Computing,ACSIC)的使命是通過協助和促進成員對社會的貢獻,推進計算科學技術和教育。

ACSIC 通過提供成員之間的信息交流和協作機會,提高會員的知名度和獎學金,組織社會和技術活動,以及與其他科技機構和企業合作來實現其使命。

第一屆北美計算機華人學者年會暨計算技術前沿研討會(The First ACSIC Symposium on Frontiers in Computing,SOFC)於 2017 年 6 月 9-10日在芝加哥舉行。會議旨在:(1)探討計算技術的前沿問題;(2)促進華人計算機學者的交流與合作;(3)凝聚華人計算機學者的共識。

在本次會議上,以下華人計算機學者發表了主旨演講:

Ming Li,滑鐵盧大學(ACM Fellow, IEEE Fellow)

Bing Liu,伊利諾伊大學芝加哥分校(ACM Fellow, AAAI Fellow, IEEE Fellow)

Yuan Xie,加州大學聖巴巴拉分校(IEEE Fellow)

Lixia Zhang,加州大學洛杉磯分校(ACM Fellow, IEEE Fellow)

Xiaodong Zhang,俄亥俄州立大學(ACM Fellow, IEEE Fellow)

Yuanyuan Zhou,加州大學聖地亞哥分校(ACM Fellow, IEEE Fellow)

主旨演講話題覆蓋了計算機系統、網路、體系結構、演算法、人工智慧等計算機科學的幾個大方向。會議還就「計算前沿技術」(Frontiers in Computing)舉辦了論壇。

其中,伊利諾伊大學芝加哥分校的劉兵教授,演講題目為《打造終身學習的機器》,涉及「終身機器學習」(Lifelong Machine Learning,LML)的概念與機器學習密切相關。

下面就是劉兵教授的 PPT 全文。

終身機器學習

劉兵

伊利諾伊大學芝加哥分校計算機科學系

經典學習範式(ML1.0)

孤立的單任務學習:給定一個數據集,運行一個ML演算法,然後構建一個模型。

沒有考慮任何以前學的知識

「孤立學習」的弱點:學到的知識沒有保留或積累,也就是說,沒有記憶。

需要大量的訓練示例。

適用於限制環境中有明確定義的狹義任務。

不能自我激勵和自我學習

機器學習:ML 2.0

人類從來不是孤立地學習的:人類是連續學習

積累過去學到的知識,並利用它們去學習更多知識;

高效地從少量示例學習,並自我激勵。

終身機器學習(LML):

模仿人類的這種學習能力

人類不是孤立地學習的

沒有人會給我1000個正面的和1000個負面的汽車評論,然後讓我建一個分類器去給汽車評論分類。

我可以不需要任何評論來訓練就可以做到這些,因為我已經知道人們是如何讚美和貶損事物。

如果我沒有積累的知識,我不可能做到這些。比如說,我完全不懂阿拉伯語,即使有人給我2000個用阿拉伯語寫的正面/負面評論來訓練,我也不可能學會。

大綱

終身學習的定義

基於全局知識的終身學習

基於局部知識的終身學習

自我意識和自我激勵的學習

利用圖形的終身學習

測試或執行中的學習

總結

終身學習的定義

LML的定義

學習者從1到N完成一系列任務的學習。

在面對第(N + 1)個任務時,它使用知識庫(knowledge base,KB)中的相關知識來輔助學習第(N + 1)個任務。

在學會第(N + 1)個任務後,將第(N + 1)個任務的學習結果更新到知識庫。

終身機器學習系統(示意圖)

LML的主要特徵

連續學習過程:不僅在訓練過程學習,而且在模型使用或執行中學習

知識被保留和積累在知識庫:具有更多的知識

使用並適應過去學習的知識,以幫助未來的學習和解決問題

遷移學習,多任務學習 終身學習

遷移學習 vs. LML

遷移學習是不連續的

遷移學習不保留或積累知識

遷移學習只有一個方向:幫助目標領域

多任務學習vs. LML

多任務學習除了保留數據外,不保留知識

當任務有很多時,很難重新學習

在線的多任務學習就是LML

基於全局知識的終身學習

共享知識的兩種類型

全局知識(Global knowledge):許多現有的LML方法假設在共享的任務中存在一個全局的潛在結構(global latent structure)。

這種全局結構可以在新任務的學習過程中學到和利用。

這些方法來自多任務學習。

任務應該來自同一領域。

ELLA:有效的終身學習演算法

ELLA基於GO-MTL,一種批處理多任務學習方法。

ELLA是在線多任務學習方法,更高效並能處理大量任務。ELLA是一種終身學習方法,可以高效地添加新任務的模型,每個過去任務的模型都可以快速更新。

方法:共享的全局知識

每個模型的參數向量是權重向量和基本模型參數L的線性組合,公式如:

(Kumar et al.,2012)。

初始目標函數如PPT上所示。

基於局部知識的終身學習

兩種類型的知識

局部知識(Localknowledge):其他的許多方法不具有任務之間的全局潛在結構。

在學習新任務時,它們根據新任務的需要選擇要使用的先驗知識。這些只是被稱為局部知識,不具有連續的全局結構。

局部知識可以跨領域共享。

終身情感分類

目標:將文檔或句子分類為+或-。需要人工對每個領域的大量訓練數據進行標記,這是很大的勞動量。

那麼,我們可以不必為每個領域的數據進行標記,或至少減少要標記的文檔/句子數量嗎?

一種簡單的LML方法

假設我們已經為大量過去的領域知識的所有數據D提供了標記:

使用D創建分類器,在新領域上測試(注意:由於遷移學習不能很好地工作,只使用一個過去域/源域)

在許多情況下,準確率可以提高多達19%(= 80%-61%)。為什麼?

在其他情況下,結果不太好,例如,對於玩具的評論效果不好。為什麼呢?

目標函數(見圖)

通過懲罰開拓知識

兩種類型的懲罰項分別是:

文檔級的知識;

領域級的知識

結果之一:

左圖:在自然的類分布中具有#past域的LSC的負級F1分數。

右圖:在均衡的類分布中具有#past域的LSC的準確率。

終身主題建模(LTM)

語句「電池很好,但拍照很差」,其中的主題項是:電池,拍照

提取主題實際上包含兩個任務:

提取主題項:「圖片」,「照片」,「電池」,「電源」

聚類(同義詞分組):同樣的aspects:{「圖片」,「照片」},{「電池」,「電源」}

好的模型(Blei et al 2003)同時執行這兩個任務。主題就是一個aspect,例如,

產品評論中的重點觀察

在不同產品領域的評論中,相當多的主題重疊。

每個產品評論都有的aspect:價格;

大多數電子產品共享的aspect:電池性能;

其中很多產品也共享的aspect:屏幕。

這種跨領域的概念/知識共享是普遍的。

在學習中不利用這種共享就顯得有點silly。

哪些知識?

屬於同一個aspect/topic => Must-Links:e.g.,

不屬於同一aspect/topic => Cannot-Links:e.g.,

LTM:終身主題建模

方法:共享局部知識

來自先前任務/領域的一些知識可用於新任務,例如,和應屬於同一主題。

自我意識和自我激勵的學習

自覺積累的學習

傳統的監督學習是一種封閉世界假說:測試中的類是訓練中已經見過的,也就是說,測試數據里沒有新的類。

這在許多動態環境中都是不真實的,新數據中可能包含新的文檔類別。

我們需要在開放世界中進行分類,檢測到新的文檔類別,也就是說,既要記住已經知道的知識,也要探索未知的。

累積學習LML

利用圖形的終身學習

在標籤傳播(labelpropagation)中的終身學習

鬆弛標記法(RelaxationLabeling, RL)是一種無監督的基於圖的標籤傳播演算法,它可以通過終身學習進行擴展(Lifelong-RL),以利用在以前的任務中學到的知識。

鬆弛標記法(RL)

圖由節點(node)和邊緣(edge)組成。

Node:要標記的對象

Edge:兩個節點之間的二進位關係。

終身鬆弛標記法(Lifelong-RL)

Lifelong-RL使用兩種形式的知識

先前的edge:圖通常不是給定或固定的,而是基於文本數據構建的。如果數據很少,可能會丟失很多邊緣,但這些邊緣可能存在於以前的某些任務的圖中。

先前的label:初始的P0(L(ni))很難設置,但是可以使用先前任務的結果更準確地進行設置。

從Lifelong-RL到SA任務

問題:觀點目標標籤

將entity和aspect分離,例如在「Although the engine is slightly weak, this car is great.」這個觀點中,entity是「car」,aspect是「engine」。

目標提取(target extract)常常無法區分兩者。

這個問題適合使用終身學習的方法:共享edge,entity和aspect,以及共享他們跨領域的label。

Lifelong-RL的架構(見圖)

Relation modifier表示edge,Typemodifier和先前的label有助於

的設置。

在測試或執行中學習

在執行中改進模型

在沒用人工標記的標籤的訓練下,模型的性能可以提升嗎?

本文提出了一種利用CRF信息提取的上下文中改進模型的技術。

它利用相依性特性,隨著模型得到更多的數據,能有更多的特徵被識別出來。這些特徵有助於在新的領域使用相同的模型產生更好的結果。

總結

本講座簡要介紹了在一些NLP應用中的LML

LML的研究現在還處於起步階段,對LML的了解非常有限,目前的研究主要集中在只有一種類型任務的系統。LML需要大量數據,以學習大量不同類型的知識。

LML存在許多挑戰,例如:

知識的正確性

知識的適用性

知識表達和推理

學習多種類型的任務

自我激勵的學習

組合學習

在人與系統的交互中學習

(感謝施巍松、盧山兩位老師在報道中提供的幫助!)

點擊閱讀原文查看新智元招聘信息


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

基於機器學習的KPI自動化異常檢測系統
晶元設計遇上機器學習,專家們都這麼看
除了 Python,這些語言寫的機器學習項目也很牛
醫療行業如何應用機器學習技術?看看美國最頂尖的五家醫院
機器學習不神秘!手把手教你用R語言打造文本分類器

TAG:機器學習 |

您可能感興趣

著名科學家許田放棄耶魯大學終身教職,全職加入西湖大學!
【蓋婭學院】莫然老師終身塔羅學徒研習生課程
魏坤琳:認知科學助力終身學習
耶魯首位華裔博士,奮鬥終身成醫學泰斗,晚年卻被所創辦醫院拒收
芝加哥大學終身教授:自然科學與社會科學的真正區別
丹澤爾·華盛頓獲美國電影學院終身成就獎
蘋果庫克表示應該學會接受AI並終身學習
劉國梁PK郎平PK劉翔恩師,國際奧委會終身教練獎群星薈萃
《轉》訪大連理工大學高端特聘教授、美國克瑞頓大學終身教授肖桂山
哈佛大學終身教授何毓琦:年輕人如何做好科研
放棄耶魯大學終身教職,許田教授加盟西湖大學!
八旬老漢自學俄語57年,嫌女人影響「學業」終身不娶
駐英大使夫人胡平華榮獲英國48家集團俱樂部「女性破冰者終身成就獎」
影響世界華人盛典:三位科學泰斗獲終身成就獎
甘肅中醫藥大學終身教授周信有逝世 獲評國醫大師
生物學家許田放棄耶魯終身教職 全職加入西湖大學
北京大學牛校長:決議孩子終身的不是學業表現
東大徐吉謙教授獲「全球華人交通運輸學科終身成就獎」
魏坤琳:終身學習者如何善用大腦?來自認知科學的建議
國醫大師劉祖貽孫光榮、全國名中醫潘敏求受聘為「終身研究員」