反超GPU:微軟提出在CPU上高效解碼的神經機器翻譯模型
選自arXiv
機器之心編譯
參與:黃玉勝、李澤南
在最近一次機器學習熱潮中,GPU 一直是承擔神經網路模型訓練和處理的主要計算設備,大多數模型都是針對 GPU 進行優化的。最近,微軟研究院的 Jacob Devlin 等人發展了另一條路線,他們在神經機器翻譯任務中選擇 CPU 作為解碼的主要計算晶元,並實現了超過 GPU 效能的結果。這或許能為我們優化模型性能帶來新的思路。
論文:Sharp Models on Dull Hardware: Fast and Accurate Neural Machine Translation Decoding on the CPU
論文鏈接:http://cn.arxiv.org/abs/1705.01991
摘要:含有注意力機制的 sequence-to-sequence 模型近年來已經成為了機器翻譯領域的新標準,但與基於短語的系統相比,這個模型也面臨一個挑戰——那就是訓練和解碼成本顯著增加。這裡我們專註於研究高效的解碼,旨在精確度上與現有的神經翻譯模型接近,同時在 CPU 解碼速度和吞吐量上與短語解碼器接近。
我們從兩個角度來處理這個問題:首先,我們描述了用於加速 NMT 波束搜索解碼器的幾種技術,其在非改變解碼器輸出的情況下在非常有效的基線解碼器上獲得 4.4 倍的加速。其次,我們提出了一個簡單而強大的網路架構,它在底層使用 RNN(GRU/LSTM)層,隨後在每個時間步上應用一系列堆疊的完全連接的層。這種架構在少量訓練和解碼成本的情況下可以獲得與深度循環模型相近的精度。通過結合這些技術,我們最好的系統在 2014 年的 WMT 英語-法語新聞測試集上達到了 38.3 BLEU——非常有競爭力的準確性分數,而在單線程 CPU 上達到 100 字/秒的解碼速度。我們認為這是目前已發布的準確率和速度平衡上達到最佳的 NMT 系統。
圖 1. 單線程 16 位定點矩陣乘法與英特爾 MKL 的 32 位浮點的對比,結果為 1000 詞乘法的平均,二者都使用了 AVX2 指令集。
表 1. 在 Intel E5-2660 CPU 上單獨處理每個句子時的解碼速度
表 2. 利用 3 層 512 維的 Bi-GRU 模型在 2014 年的 WMT 英語-法語新聞測試集的結果。使用的 GPU 是英特爾 Haswell E5-2660。
儘管微軟研究人員在論文中將整體與單個模型作比較,但是仍然得出了整體(E1)比單模型(S7)解碼速度快 3 倍的結論。此外,研究人員還發現,在模型訓練中,CPU(S4)的運算速度比同能耗的 GPU(S7)要快接近 3 倍,所以整體(E1)也比單個模型(S7)的訓練速度要快 1.5 倍。
※湯曉鷗談深度學習三大核心要素:演算法設計、高性能計算以及大數據
※Bengio TED演講:無監督學習是深度學習突破的關鍵
※人工智慧的三個階段:我們正從統計學習走向語境順應
※回歸、分類與聚類:三大方向剖解機器學習演算法的優缺點(附代碼)
※谷歌I/O李飛飛等四位女性專家,談機器學習的過去、現在和未來
TAG:機器之心 |
※INTERFACE | 從技術到產品,搜狗為我們解讀了神經機器翻譯的現狀
※FAIR機器翻譯最新研究:提出不使用平行本文的無監督機器翻譯模型
※微軟翻譯iOS版將提供離線模式
※IBM、哈佛聯合提出Seq2Seq-Vis:機器翻譯模型的可視化調試工具
※耳機中的翻譯機,TOPPERS智能耳機E1測評
※芮勇接受ACM專訪:未來,AI、VR/AR、5G、實時翻譯等技術,將深刻改變智能手機和用戶的體驗
※機器翻譯TMT
※NCB:一種新的m6A閱讀器!可促進mRNA翻譯和穩定性
※獨有隨行翻譯功能,OPPO O-Free藍牙無線耳機上架開賣
※Alexa開拓同聲翻譯功能;MWC上Android Go系統低端機發布;搭載谷歌語音助手 顯示器也能智能語音交互
※這個耳機不僅音質好還會即時翻譯:TOPPERS 智能耳機E1試聽
※便攜舒適會翻譯,TOPPERS智能耳機E1成最佳商務伴侶!
※活動 | INTERFACE#4 解讀搜狗機器翻譯技術,體驗搜狗旅行翻譯寶產品
※無平行文本照樣破解密碼,CipherGAN有望提升機器翻譯水平
※實用翻譯功能,OPPO R17 Pro給用戶帶來更加舒適體驗
※INTERFACE#4 解讀搜狗機器翻譯技術,體驗搜狗旅行翻譯寶產品
※iPhone X 的未來在中國/微軟機器翻譯達人類水平
※無監督神經機器翻譯——UNdreaMT
※微軟翻譯iOS版即將支持離線AI 準確率提升
※【翻譯組】INS怎樣征服NBA