當前位置:
首頁 > 新聞 > 清華大學自然語言處理與社會人文計算研究中心成立!

清華大學自然語言處理與社會人文計算研究中心成立!

雷鋒網 AI 科技評論按:2019 年 7 月 1 日,清華大學人工智慧研究院自然語言處理與社會人文計算研究中心成立儀式暨學術報告與開元成功發布會在清華大學 FIT 樓舉行。這是繼知識智能研究中心、聽覺智能研究中心、基礎理論研究中心、智能機器人研究中心、智能人機交互研究中心、智能信息獲取研究中心、視覺智能研究中心之後成立的第八個研究中心。清華大學副校長、清華大學人工智慧研究院管委會主任尤政院士,清華大學人工智慧研究院院長張鈸院士出席成立儀式並共同為中心揭牌。清華大學人工智慧研究院院長助理朱軍教授主持了成立儀式。

尤政院士與張鈸院士致辭

尤政院士在致辭中指出,自然語言處理一直以來都是計算機科學領域的一個重要方向,也被稱為「人工智慧皇冠上的明珠」,是人工智慧技術當下和未來發展的戰略制高點。而清華大學作為國內最早開展自然語言處理的單位之一,經過四十年的不懈努力,已經發展成國內外自然語言處理研究的一方重鎮。因此,中心的成立對於推動清華大學人工智慧的深入發展具有十分重要的意義。

將自然語言處理與社會科學及人文科學相結合,具有大跨度學科交叉的性質。這既是人工智慧研究本身的積極拓展,也是對傳統學科在人工智慧時代的守正出新。希望中心能夠凝聚清華自然語言處理研究力量,加強與人文社科學科的交叉合作,開展具有世界水平的自然語言處理基礎理論研究和關鍵技術創新,服務於清華與國家的人工智慧發展戰略。

張鈸院士代表清華大學人工智慧研究院致辭。他指出語言是人類智能的重要標誌,機器自然語言理解是人工智慧的終極目標。清華大學在自然語言處理方面有著深厚的研究積澱,1978 年成立人工智慧與智能控制教研組時,自然語言處理就是其中的重要研究方向之一,在黃昌寧教授領導下迅速發展成為國內領軍的研究單位。

新成立的中心將致力於實現自然語言處理與人文社科的深度融合,不僅僅是將人工智慧技術融入人文社科領域,更需要從語言、社會學、人文學等人文社科的多個角度來反觀人類智能的本質,這是研究院人工智慧基礎研究的重要組成部分。希望中心再接再厲,在自然語言處理與社會學、人文學的交叉研究上形成特色,引領我國自然語言處理和社會人文計算研究領域的發展。

致辭結束後,尤政院士與張鈸院士共同為自然語言處理與社會人文計算研究中心揭牌,並向清華大學人工智慧研究院常務副院長孫茂松教授頒發了中心主任聘書。研究中心同時聘請了中國中文信息學會原理事長、中國工程院院士倪光南,滑鐵盧大學講座教授、加拿大皇家科學院院士李明,微軟亞洲研究院副院長、國際計算語言學會會長周明,英國帝國理工學院數據科學研究所所長、英國皇家工程院院士郭毅可為學術顧問。

自然語言處理與社會人文計算研究中心

語言是人類區別於其他動物的根本標誌,沒有語言,人類的思維也就無從談起。自然語言處理旨在讓計算機掌握理解與處理人類語言的能力,體現了人工智慧的最高任務與境界,只有當計算機具有處理語言的能力時,機器才可能通過圖靈測試。

自然語言處理與社會人文計算研究中心將緊密圍繞人類語言所體現的人類智能本質,重點研究魯棒、可解釋的自然語言處理方法與技術,深入探索語言理解與生成技術在社會人文計算領域的應用,努力建設以中文為核心、覆蓋多種語言、從詞法到篇章的全流程自然語言處理技術框架與計算平台,力爭產出以智能創作、智能語言學習、智能教育、智能司法為代表的、具有國際學術影響力、重大民生意義的社會人文計算研究成果。

中心的前身是清華大學計算機系自然語言處理課題組,早在上個世紀七十年代末就在黃昌寧教授的帶領下從事自然語言處理研究工作,是國內開展相關研究最早、深具影響力的科研單位,同時也是中國中文信息學會(全國一級學會)計算語言學專業委員會的掛靠單位,孫茂松教授現任該專業委員會的主任。

主要研究方向

面向多粒度語言單元的統一語義表示框架;

從詞法到篇章的全流程自然語言處理技術體系;

數據與知識融合的多語言機器翻譯技術;

知識指導的自然語言深度理解與智能推理技術;

跨模態自然語言學習與處理結束

以自然語言處理為主要支撐手段的社會人文計算,包括智能創作、智能語言學習、智能教育、智能司法、智能傳播、智能音樂等。

代表性成果

1.THUMT—數據驅動的機器翻譯(已開源)

劉洋副教授向我們介紹了該開源成果 THUMT——它是一個是一個基於深度學習的機器翻譯系統。該系統使用了數據驅動的機器翻譯技術,具備良好的語言無關性,在具備訓練數據的條件下可以迅速為新語種部署系統。支持漢語、英語、日語、俄語、西班牙語、葡萄牙語、德語、法語、阿拉伯語、維吾爾語等關鍵語言的機器翻譯系統,應用於外交部、新疆公檢法等政府重要部門和搜狗、百度、捷通華聲等互聯網企業,在大規模多語言信息深度分析處理和高效服務方面做出貢獻,相關產品廣泛應用於互聯網、金融、能源、電信、交通等行業領域。

本次開源成果公布了在 TensorFlow 平台上開發的新版本,採用了主流的 Transformer 模型,集成了目前最新的神經機器翻譯技術,具有訓練速度快(支持多機多卡並行)、顯存佔用低(支持單精度浮點數計算)、翻譯性能高(與國際機器翻譯開源軟體相比位居前列)、易於可視化分析(支持層級相關反饋演算法)等優點。此外還開放了 70 萬句對的句級對齊漢英平行語料庫和 4 萬句對的詞級對齊漢英平行語料庫。

2.THUAIPoet—基於深度學習的中文詩歌自動生成系統(已開源)

矣曉沅博士生(清華大學特等獎金獲得者,獲「中國網事,感動 2018」第三季度網路感動人物)介紹了開源成果 THUAIPoet。

THUAIPoet(九歌)是一個基於深度學習神經網路技術的中文詩歌自動生成系統,支持集句詩、絕句、藏頭詩、詞等不同體裁詩歌的在線生成。曾參加過中央電視台 CCTV-1《機智過人》節目,與人類詩人同台競技,取得了幾乎可與人媲美的效果。

此次成果發布開源了系統中的無監督風格詩歌生成模型 StylisticPoetry 源碼(相關論文發表於 EMNLP 2018),能夠在無標註數據集上進行任意數量的風格解耦控制。此外還發布兩個人工標註的詩歌數據集(詩歌質量數據集和詩歌情緒數據集),以及國內外詩歌生成相關的主要論文列表。

3.THUPM—知識指導的自然語言預訓練模型(已開源)

2018 年起,以 BERT 為代表的模型,能夠利用大規模無標註文本學習預訓練模型,在自然語言處理各重要任務上均取得顯著性能提升,引起學術界和產業界的廣泛關注。實際上,文本中往往包含豐富的人類知識,如實體間複雜關係等。已有預訓練模型無法考慮知識圖譜中的結構化知識。中心團隊認為,結構化知識可以指導預訓練模型,提升模型對文本中低頻實體的理解能力。因此,提出一種融合知識圖譜實體表示和相應預測任務的預訓練模型(ERNIE),闡述該模型的論文已經被 ACL 2019 錄用。

會上劉知遠副教授對開源成果 OpenCLaP 作了介紹。OpenCLaP(Open Chinese Language Pre-trained Model Zoo)是一個多領域中文預訓練模型倉庫。通過在多領域大規模中文文本的預訓練,這些預訓練模型可以在下游任務上進行微調以提高任務性能。

本次開源成果公布了基於法律文本和百度百科千萬級文檔的預訓練模型,支持最大 512 長度的文本輸入適配多種任務需求。未來還將持續加入更多更強的預訓練模型,如增加更多訓練語料,引入大規模知識,使用全詞覆蓋策略等。

4. 融合大規模知識的中文語義表示學習方法

為了實現面向現實空間、網路空間和認知空間中的互聯網海量文本、語言知識和世界知識等多源異質信息的深度理解與計算,在孫茂松教授擔任首席科學家的國家重點基礎研究計劃項目支持下,中心團隊提出融合大規模知識的中文語義表示學習方法體系,在融合語言知識的語言單元表示學習和世界知識表示學習方面提出多種高效演算法。

在自然語言處理重要國際期刊和會議發表 40 余篇論文,被 MIT、CMU、 Google、 Facebook 等研究機構列為代表方法,獲得引用超過 4000 次, 相關開源演算法獲得近 2 萬星標關注。

5. 大規模結構化知識的自動獲取技術

為了從海量自由文本中自動抽取結構化知識,支撐複雜場景下的自然語言處理的知識需求,中心團隊面向實體關係抽取等關鍵知識獲取任務,開展了深入技術研究和數據集合構建。創造性地提出了句子級別選擇注意力機制、對抗訓練機制等技術方案,有效緩解了遠程監督訓練數據的噪音問題,並能夠更好地利用跨語言訓練數據。

團隊還面向多種挑戰場景構建大規模標註數據集合,例如面向少次學習的 FewRel 數據集,面向文檔級關係抽取的 DocRED 數據集等。相關研究成果在自然語言處理重要國際期刊和會議發表 10 余篇論文,被 MIT、CMU、UCB 等研究機構列為代表方法。

6. 基於自然語言處理技術的法律智能

法律智能旨在利用人工智慧技術輔助法律行業,提升司法行政事業各環節的智能化水平,緩解案多人少矛盾,避免同案不同判現象,是我國推進全面依法治國戰略布局的關鍵支撐技術。

中心研究團隊深入研究智慧司法任務,提出了全面的技術規範流程,提出的要素式多任務判決預測、要素判決預測、神經網路信息抽取等技術,為法律智能提供了更加高效魯棒的解決方案;構建大規模數據集用於訓練構建機器學習模型,組織了國內首個法律智能挑戰賽,吸引國內外超過 600 支隊伍參加,刑期預測任務準確率從最初的 30% 提升至 78%,極大推動了我國法律智能研究與應用的發展;團隊與法學院合作開展「計演算法學」碩士項目,並於 2018 年首次招生, 受到社會各界廣泛關注。

前沿學術報告會

李明:第二代對話機器人

李明院士做了題為《第二代對話機器人》的特邀報告。

報告指出缺乏理解能力、缺乏學習能力、被動地「人云亦云」是第一代聊天機器人的主要缺陷,其原因在於目前的深度學習技術還不具備理解和使用人類語言所必需的概念抽象和邏輯推理能力。他認為實現理解和學習是第二代聊天機器人的主要目標,機器人只有通過自動學習和社會參與才能獲得不斷地成長,從而具備更強的運用人類語言的能力。

周明:關於神經網路自然語言處理的思考

周明博士做了題為《關於神經網路自然語言處理的思考》的特邀報告。

報告對基於神經網路的自然語言處理的研究進展進行了系統地回顧與總結,指出自然語言處理目前面臨著深度學習計算成本高昂、大規模標註數據稀缺、難以實現真正的理解與推理等關鍵挑戰。他認為未來應當從計算能力、數據資源、模型演算法、系統應用、人才培養、交叉合作等六個方面進一步推動自然語言處理的發展。

雷鋒網 AI 科技評論雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

三星智能家居出新貨
AI 安全大佬教你如何攻擊雲端圖像分類模型 | 純乾貨

TAG:雷鋒網 |