7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

新聞 08-05

機器之心整理

參與：一鳴

本周有許多非常重要的研究值得關注，如清華大學等提出的通用人工智慧晶元，Facebook 提出的非侵入式腦機介面，還有 ACL 2019 最佳長、短論文等。乾貨滿滿，歡迎讀者朋友閱讀。

Towards artificial general intelligence with hybrid Tianjic chip architecture
Real-time decoding of question-and-answer speech dialogue using human cortical activity
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Bridging the Gap between Training and Inference for Neural Machine Translation
Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment
ERNIE 2.0: A Continual Pre-training Framework for Language Understanding
DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

1. 標題：Towards artificial general intelligence with hybrid Tianjic chip architecture

作者：Jing Pei、Lei Deng 、Sen Song 、Mingguo Zhao 、 Youhui Zhang 、 Shuang Wu 、 Guanrui Wang 、 Zhe Zou 、 Zhenzhi Wu 、 Wei He 、 Feng Chen 、 Ning Deng 、 Si Wu 、 Yu Wang 、 Yujie Wu 、 Zheyu Yang 、 Cheng Ma 、 Guoqi Li 、 Wentao Han 、 Huanglong Li 、 Huaqiang Wu 、 Rong Zhao 、 Yuan Xie 、Luping Shi
論文鏈接：https://www.nature.com/articles/s41586-019-1424-8

摘要：現階段，發展人工通用智能的方法主要有兩種：一種是以神經科學為基礎，無限模擬人類大腦；另一種是以計算機科學為導向，讓計算機運行機器學習演算法。實現人工通用智能的最終目標是讓兩者結合，但由於兩套系統使用的平台各不相同且互不兼容，極大地限制了人工通用智能的發展。論文中，研究者研發了一款融合了上述兩種方法的電子晶元。他們的混合晶元有多個高度可重構的功能性核，可以同時支持機器學習演算法和類腦電路。作者用一個無人自行車系統驗證了這一混合晶元的處理能力。試驗中，無人自行車不僅可以識別語音指令、實現自平衡控制，還能對前方行人進行探測和跟蹤，並自動避障。作者認為，這項研究或能為人工通用智能平台的進一步發展起到促進作用。

推薦：八月份的 Nature 封面文章，論文提出的一種融合了脈衝神經網路和人工神經網路的基礎硬體架構，有效推動了通用人工智慧研究。論文作者來自清華大學、新加坡國立大學等，研究陣容豪華。

7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

打開今日頭條，查看更多圖片

8 月份的「Nature」封面。

2. 標題：Real-time decoding of question-and-answer speech dialogue using human cortical activity

作者：David A. Moses、Matthew K. Leonard、Joseph G. Makin、Edward F. Chang
論文鏈接：https://www.nature.com/articles/s41467-019-10994-4

摘要：Facebook 與加州大學舊金山分校（UCSF）發布了有關腦機介面研究的最新進展，研究關於構建非侵入式可穿戴設備，讓人們只需通過想像要說的話即可完成「打字」動作。這項研究證明了人們在對話時大腦產生的活動可以實時解碼為電腦屏幕上的文字——而在此之前，這樣的工作都是離線完成的，實時「翻譯」文字是腦機介面研究領域的第一次。研究人員表示，他們的演算法目前為止還只能識別一小部分單詞和短語，但正在進行的工作旨在翻譯更多辭彙，並大幅降低識別錯誤率。

推薦：這也是「Nature」的一篇論文。這項對標馬斯克 Neuralink 的工作提出了新穎的腦機研究思路。根據報道，Facebook 打算以此為基礎開發 VR 眼鏡。

7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

該型腦機介面的實現圖示。

3. 標題：RoBERTa: A Robustly Optimized BERT Pretraining Approach

作者：Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov
論文鏈接：https://arxiv.org/pdf/1907.11692.pdf
實現鏈接：https://github.com/pytorch/fairseq/tree/master/examples/roberta

摘要：RoBERTa 的全名為 Robustly Optimized BERT pretraining Approach。Facebook 的研究人員採用了 BERT-Large，並通過更多的數據與更長的訓練來提升預訓練過程，最終的結果通過模型集成獲得。前段時間，RoBERTa 打敗 XLNet 登上了 GLUE 排行榜榜首。

推薦：最佳預訓練語言模型的頭銜花落誰家？看數據量和訓練時長吧！

7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

隨著 RoBERTa 模型的訓練數據量和時長增加，效果也變得更好了。

4. 標題：Bridging the Gap between Training and Inference for Neural Machine Translation

作者：Wen Zhang、Yang Feng、Fandong Meng、Di You、Qun Liu
論文鏈接：https://arxiv.org/pdf/1906.02448

摘要：在訓練時，神經機器翻譯（NMT）利用 ground truth 詞作為預測時的上下文，推理時則必須從頭生成整個句子。這種帶不帶標註上下文的差異導致誤差的累積。此外，單詞級別的訓練要求生成的序列與 ground truth 序列嚴格匹配，這導致模型對不同但合理的翻譯進行過校正。

在本文中，研究者不僅從 ground truth，還從模型在訓練中預測的序列採樣上下文單詞，並選擇句子級別的最優預測序列來解決這些問題，其中預測語句是句子級別的最優選擇。也就是說，翻譯模型不再逐詞對比標註而確定損失函數，它會考慮同一句話不同的譯法。

推薦：這篇是 ACL 2019 最佳長論文，提出了新的機器翻譯方法。作者來自中科院等機構。

5. 標題：Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment

作者：Nanjiang Jiang、Marie-Catherine de Marneffe
論文鏈接：https://www.aclweb.org/anthology/P19-1412

摘要：推斷說話者承諾（又稱為事件事實）對信息提取和問答非常重要。在這篇論文中，研究者通過在挑戰性的自然數據集上分析模型誤差的語言學相關性，從而探索語言學缺陷驅動說話人承諾模型錯誤模式的假設。

研究者在 CommitmentBank 數據集上評估了兩個 SOTA 的說話人承諾模型（speaker commitment model）。他們發現獲取語言學信息的模型要優於基於 LSTM 的模型，這表明我們需要語言學知識來捕捉具有挑戰性的自然數據。研究者表示按語言學特徵劃分的 item 揭示了不對稱的錯誤模式：雖然模型在某些類別上取得了很好的表現，但它們無法泛化到自然語言中的各種語言學結構，例如條件句。

推薦：這篇是 ACL 2019 最佳短論文，論文說明了語言學規則（先驗）對說話者承諾任務的重要影響，值得語言學或 NLP 研究背景的讀者了解。

7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

說話者承諾任務使用的數據集。

7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

基於規則的、線性的、樹結構的和混合模型的 Pearson r 分數和絕對平均誤（Mean Absolute Error）分數。對比結果顯示，基於語言學規則的模型比 bi-lstm（Hybrid）模型表現更好。

6. 標題：ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

作者：Yu Sun、Shuohuan Wang、Yukun Li、Shikun Feng、Hao Tian、Hua Wu、Haifeng Wang
論文鏈接：https://arxiv.org/pdf/1907.12412v1.pdf

摘要：近兩年，以 BERT、XLNet、ERNIE 1.0 為代表的無監督預訓練技術在語言推斷、語義相似度、命名實體識別、情感分析等多個自然語言處理任務上取得了技術突破。基於大規模數據的無監督預訓練技術在自然語言處理領域變得至關重要。

百度研究者發現，之前的工作主要通過詞或句子的共現信號，構建語言模型任務進行模型預訓練。例如，BERT 通過掩碼語言模型和下一句預測任務進行預訓練。XLNet 構建了全排列的語言模型，並通過自回歸的方式進行預訓練。

然而，除了語言共現信息之外，語料中還包含詞法、語法、語義等更多有價值的信息。例如，人名、地名、機構名等詞語概念知識，句子間順序和距離關係等結構知識，文本語義相似度和語言邏輯關係等語義知識。那麼如果持續地學習各類任務，模型的效果能否進一步提升？這就是 ERNIE 2.0 希望探索的。

推薦：儘管 XLNet 等預訓練語言模型取得了很好的效果，但中文語境缺乏相關模型。百度推出的 ERNIE 模型填補了這個空缺。現在 ERNIE 已進入第二代，依然是中文語境中效果最佳的預訓練語言模型。

7 Papers | 清華天機晶元；非侵入式腦機介面；ACL 2019論文

ERNIE 2.0 模型的結構示意。

7. 標題：DropAttention: A Regularization Method for Fully-Connected Self-Attention Networks

作者：Lin Zehui、Pengfei Liu、Luyao Huang、Junkun Chen、Xipeng Qiu、Xuanjing Huang
論文鏈接：https://arxiv.org/pdf/1907.11065

摘要：變體 dropout 方法設計用於神經網路中的全連接層、卷積層和循環層，同時被證明可以有效地避免過擬合。作為循環和卷積層的一種良好替代選擇，全連接自注意力層卻缺少特定的 dropout 方法。本文旨在探索正則化 Transformer 中注意力權重的可能性，從而阻止不同的情景化特徵向量出現互適應（co-adaption）。在一系列任務上的實驗表明，DropAttention 可以提升性能，減弱過擬合。

推薦：復旦大學提出專門針對注意力層的 Dropout 方法，值得參考研究。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※結合符號主義和DL:DeepMind提出端到端神經網路架構PrediNet
※如何用OpenCV在Python中實現人臉檢測

TAG:機器之心 |