當前位置:
首頁 > 科技 > 專訪王威廉:NLP哪些研究方向更容易取得突破?

專訪王威廉:NLP哪些研究方向更容易取得突破?

參加 2018 AI開發者大會,請點擊

自然語言處理(NLP)是一門集語言學、計算機科學、人工智慧於一體的科學,解決的是「讓機器可以理解自然語言」——這一到目前為止都還只是人類獨有的特權,因此被譽為人工智慧皇冠上的明珠。

近日,AI科技大本營採訪到了 NLP 領域的華人新星——加州大學聖巴巴拉分校助理教授王威廉,向他請教了 NLP 領域最前沿的研究問題,以及 NLP 研究方向的一些建議。

關於王威廉:2009 年畢業於深圳大學,隨後赴美留學,並先後在哥倫比亞大學和卡耐基梅隆大學獲得碩士和博士學位。他的研究範圍包括統計關係學習、信息提取、社交媒體、語音和視覺等等。2016 年博士畢業之後,王威廉加盟加州大學聖巴巴拉分校。如今,王威廉已經是該校 NLP 小組的負責人,同時也是計算機科學系的助理教授。近幾年來,王威廉在一些重要的 NLP/AI/ ML 等會議和期刊上發表了 60 多篇論文,並多次獲得知名學術會議的最佳論文獎及提名。

1)您現在的主要研究領域是什麼?有哪些最新進展?

王威廉:我的主要研究領域現在有三個:自然語言處理、機器學習、人工智慧。

在自然語言處理領域,我們實驗室主要關注的方向是信息抽取,社交媒體,語音、語言處理,以及語言與視覺方面的研究;

在機器學習領域,我們比較關注的是強化學習、對抗學習以及深度學習技術的突破;

在人工智慧總體領域,我們對知識的表示、推理、知識圖譜非常關注。

我們最近的一些突破,比如發表在 EMNLP 2017 上 DeepPath 首先提出了用強化學習的方法去做知識圖譜上的推斷,這項工作取得了很大的關注。我們還有一些相關的工作,比如用變分推理的方法去進一步提高知識圖譜路徑找尋的效率。

此外,我們還有不少在語言與視覺方面的嘗試,包括 video captioning,video storytelling,以及如何把深度強化學習技術與這些複雜的語言與視覺的技術相結合。我們嘗試了逆向的強化學習,去學習生成文本描述的多樣性,主動學習它的一些獎勵函數。我們最近也做了一些 language grounding 的工作,比如教機器人根據語言與視覺的信息來完成路徑的找尋,到達目的地。同時我們也在社交媒體領域做了不少關於假新聞、仇恨言論檢測的工作。

2)NLP 領域目前有哪些突破?未來的研究難點有哪些?

王威廉:在 NLP 領域,實體標註等工作的結果都非常好了,基本上都超過 90% 的準確率。現在的一些工作,包括大家很關心的閱讀理解,在 SQuAD 上面第一版的結果已經非常好了。在未來,我認為語言的生成還是一個很難的問題,就是如何去做一些可以控制的生成,如何保證語義的連貫性以及語法的正確性,這些都是在神經網路框架下難以做到的。

還有一個是推理的問題。我們如何進一步地在分類、在序列標註等任務的基礎上設計一些演算法以及機器學習的模型,然後讓機器能夠在一些複雜的任務上,尤其是一些推理的相關的任務上取得一些突破,這些還是相當難的問題。

3)NLP 領域裡比較流行的 SQuAD 數據集的局限性在哪?NLP 領域需要怎樣的數據集?以及怎樣的評價標準?

王威廉:它的局限性有幾個,第一是數據量還不大,第二是機器做閱讀理解的時候其實並不需要完全理解這個問題,也不需要完全理解這個篇章,它可以用很簡單的模式識別的方法去找 pattern。比如說這個問題裡面的哪個詞和篇章裡面的哪個詞比較匹配,然後來回答答案。所以它並不能真正地理解語言,不能很好地理解問題,遇到複雜的問題就回答不了。

NLP 領域需要更加複雜的數據集,比如說多個文本,需要在知識圖譜里做一些推斷,需要根據上下文不同的假設去做一些推測,這樣的數據集可能會有更多的幫助。

評價標準是很多人在討論的一個話題,像 BLEU 等已經用了一二十年了,它局限性非常大,比如說它不是通過語義的方法來做評價,而是是通過詞之間的 overlap(重疊)做的一個評價標準,所以它不能代替人類的評價。

王威廉:個人認為多任務學習、是非常有意思的一個方向。你可以看一下 decaNLP 的單項結果,確實是比各個單項的 SOTA 還是有一些距離的。總體來說,這是非常有意思的一個研究方向,但是在實際應用中,每一個單項的成績比單項的 SOTA 還是有不小的距離。

王威廉:不一定。RNN 及其變種確實有一些優勢,比如它能夠把握 非常準確的本地語義關係,像LSTM 在 sequence tagging 等任務上還是能取得非常不錯的結果。總體來說,Transformer 還是很有意思的研究角度,但是實際情況是,它並沒有在除了機器翻譯之外的 NLP 任務上面取得最好的結果。

6)強化學習和 GAN 現在非常熱門,但在 NLP 任務中又有很多限制,面對這種現狀,科研人員應該怎麼做?

王威廉:我覺得首先你要搞清楚為什麼要用強化學習。在我看來,強化學習在 NLP 中可以做三件事情。第一件事情,你可以用它去做 learning to search,learning to rank,然後用強化學習作為解決傳統方法解決不了的問題的一種手段。第二件,我們發現在 reinforced co-training 這個工作中,強化學習可以學習選擇數據,然後我們可以用強化學習去做 denoiser(去噪)。此外,還可以用強化學習去優化 BLEU Score,ROUGE Score,我們最近發表在 ACL 2018 上的工作也有用逆向強化學習去學它的評價標準。總之,還是有不少值得研究的空間。

GAN 更是一個很有意思的方向。GAN 在 CV 領域取得了很好的結果,在 NLP 領域,由於語言是離散的,所以大家還在研究如何通過更好地設計對抗網路,讓判別器可以去反向傳播錯誤,從而更好地更新生成器。我們在負例生成與遠程監督去噪上也做了一些嘗試,包括今年的 KBGAN 和 DSGAN 。

總體來說,首先要搞清楚你為什麼要做這個事情?你到底要做什麼事情?強化學習跟 GAN 適不適合這個任務?搞清楚了這幾點,然後才有可能使得你的 NLP 的結果得到提升。如果搞不清楚就盲目應用 GAN 和強化學習,是是很難在你的任務中取得很好的結果的。

7)對於科研人員來說,NLP 里哪些研究方向更容易取得突破?

王威廉:自然語言研究有兩塊,一個是生成,一個是理解。生成和理解這兩塊其實都非常重要,比較難說哪一塊更容易取得突破。

但是生成的任務肯定是非常難的,因為首先辭彙量是無窮無盡的,然後 latent space 和詞的映射關係也是非常難做的,所以生成會是比較難一點。

至於理解任務,要看你做到哪一步了。如果你是做文本分類這些簡單一點的 任務,當然也有難一點的,比如說結構化預測,sequence tagging 會更難一點,那最難的可能就是比如說 句法樹的生成,比如依存句法分析或者是語義分析。

8)面對目前 NLP 領域的研究困境,以往我們會在數據、ML 或 DL 等方法上做創新或改變,現在是否依然是這個思路?是否需要懂得語言學知識或者融合其他學科知識?

王威廉:在早些年,大家做 NLP 研究可能是研究計算語言學,就是怎樣用計算的方法去更好地理解語言學。現在基本上已經變了,過去 10-15年,NLP 基本上是計算機科學家為主,他們可能會關心一些更加實用的任務,比如說機器翻譯,對話系統。大家可以看到,很多的 NAACL 、EMNLP 論文,往往是在數據、任務或者是機器學習的方法上做一些創新。

這其實也跟計算機學科有關,因為計算機學科本身喜歡在演算法層面上做創新。至於需不需要語言學知識?在深度學習之前,大家覺得是需要的,有了深度學習之後,大家覺得可能不需要。但是現在大家又發現,像 Seq2Seq 模型的結果非常差,語義連貫性、語法正確性也都沒有保證,而大家又想把結構融合到深度學習模型里。所以我個人認為還是需要掌握一些語言學知識,至少對你學習和研究的語言要有一些基本的知識,而其他學科的知識,根據你不同的應用也是非常重要的。比如說你做計算社會科學,你當然是需要知道一些社會科學,包括心理學、社會學一些相關的知識,然後才能更好地讓你的研究取得突破。

9)近幾年中國在 NLP 領域的發展狀況?

王威廉:最近幾年中國在 NLP 領域的發展是非常迅猛的,主要體現在下以下幾個方面。第一,大家可以看到,在 NLP領域的 ACL、NAACL、EMNLP 這三大會議上,中國人基本上已經撐起了半邊天。現在有一半的論文至少都是來自於國內的高校,然如果看第一作者,華人作者的比例可能會更高。國內工業界的發展也非常迅猛,尤其在自然語言處理領域。另外,現在國內是百花齊放,不光是傳統的清華、北大、中科院、哈工大,很多其他的學校都陸陸續續有很多的優秀的教授以及一些非常優秀的研究。相比美國,中國的增速肯定是快很多的。總體來說,中美已經是 NLP 領域的兩個強國了,接下來就希望更多的中國論文能夠獲得最佳論文獎。

10)中文 NLP 和英文 NLP 的區別在哪?

王威廉:中文 NLP 難點在於它的處理單元不是詞,而是字元。不管是做強化學習,還是做 Seq2Seq ,在詞級別來做和字元級別還是差很遠的。如果是做字元級別的話,你的 sequence 可能會變得非常長,並不太容易做。所以中文的挑戰在於語言本身比較難。除了漢語,也有其他少數民族的語言非常值得關注和留意。

【完】

2018 AI開發者大會

只講技術,拒絕空談

2018 AI開發者大會是一場由中美人工智慧技術高手聯袂打造的AI技術與產業的年度盛會!是一場以技術落地為導向的乾貨會議!大會設置了10場技術專題論壇,力邀15+矽谷實力講師團和80+AI領軍企業技術核心人物,多位一線經驗大咖帶你將AI從雲端落地。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技大本營 的精彩文章:

Google發布三大新品,Pixel手機價格直逼蘋果
方興未艾的語音合成技術與應用

TAG:AI科技大本營 |