當前位置:
首頁 > 知識 > 英語學習利器:一款詞典筆的模型創新與工程實踐

英語學習利器:一款詞典筆的模型創新與工程實踐

機器之心原創

作者:思源

機器學習怎樣幫助英語學習?查詞、翻譯、標準發音都少不了:OCR(光學字元識別)實時識別單詞與句子,NMT(神經網路翻譯)自動翻譯語句,TTS(語音合成)合成最真實的標準讀音。那麼這些是不是能集成到一個硬體中,成為智能的英語學習利器,這就是網易有道詞典筆 2.0。

8 月 6 日,網易有道發布了一款全新的智能學習硬體:網易有道詞典筆 2.0。該詞典筆只要掃一掃就能自動識別生詞、句子,並提供對應的釋義、翻譯與讀音。重要的是,所有這些功能都可以在離線的情況下完成,包括 NMT 實現的整句翻譯。當然,這支筆背後的技術不止這些,ASR(語音識別)和 NLU(自然語言理解)等技術也幫助其實現了在線的語音助手問答功能。

這樣集成了視覺、語言、語音系統的詞典筆,才是機器學習幫助英語學習的優秀範例。那麼小小的設備上,怎樣才能集成圖像識別和翻譯的離線模型,怎樣才能在準確和速度間做權衡以提供最好的使用體驗?在這篇文章中,網易有道技術研發團隊向機器之心介紹了詞典筆 2.0 背後的核心技術。

在網易有道產品負責人吳迎暉的現場演示中,我們可以看到詞典筆 2.0 在查詞、翻譯和發音等功能上的不凡效果。它的核心操作就是「掃一掃」,不論是紙質書籍、兒童繪本,還是產品包裝盒,掃一掃就能識別陌生單詞與句子。

網易有道詞典筆 2.0 的使用體驗

機器之心也試用了這支詞典筆,我們在聯網/不聯網的情況下分別測試了劃詞識別的情況,基本上單詞識別和發音體驗上都是非常準確的,短句的翻譯也沒什麼問題。此外,詞典筆的使用非常方便,用筆頭劃一下詞就能看到識別結果,划動的角度和速度也有很大的自由空間。

如果我們讀文獻看到不了解的詞也可以用詞典筆查,如下展示了離線情況下翻譯論文句子的效果,從這裡可以看出詞典筆內置的離線翻譯模型還是很厲害的。

既然識別和翻譯效果都這麼好,那麼詞典筆背後的技術到底是什麼樣的。它為什麼掃一下就能識別單詞字母,為什麼能將視覺模型與翻譯模型都壓縮到小小的設備中,並離線實時運行?

網易有道詞典筆 2.0 的技術路線

如果我們要實現掃一掃就能查詞,那麼 OCR、NMT 和 TTS 三大模塊是不可缺少的。而且如果要將它們都嵌入到小小的端設備上,那麼還需要大量的模型壓縮與工程實踐等工作。在後文中,我們將從 OCR、NMT 與工程實踐三部分介紹有道詞典筆 2.0 的技術路線。

直觀而言,為了實現劃一划查詞查句,筆頭的高速相機每秒大約會拍攝一百多張圖像,這些圖像要拼接在一起才能展現完整的單詞或句子圖像。隨後 OCR 可以將拼接的圖像識別為文字,並使用內置的詞典與 NMT 模型進行處理。最後,詞典筆再使用 TTS 生成詞或句子的讀音就行了。

整體上,詞典筆系統從數據、演算法到效果都比較有優勢。藉助有道詞典等產品的 8 億 用戶,有道可以獲得大規模文本、OCR 圖像和語音的真實數據,累積的億級高質量訓練數據也能輸出更加貼近學習場景的機器學習模型。下面就讓我們看看詞典筆最核心的技術與方法都是什麼吧。

掃一掃識別單詞句子

作為網易有道詞典筆 2.0 最為核心的技術之一,OCR 負責「看懂」圖片中文字都有什麼。先簡單介紹下,網易有道整體的 OCR 的情況,他們的 OCR 引擎使用了主流的卷積神經網路 循環神經網路的方法,現已支持 26 種語言文字,支持語種自動判別和混合識別,是目前國內識別語言最多的 OCR 識別引擎。整體上識別準確率最高能達到 99.6%。

如上展示了有道 OCR 的一個應用,一般識別公式要比文字更複雜一些,因為表達式的結構是多種多樣的,上標、下標、分式等各種形式都存在。除了用 OCR 轉換為 LaTex 表達式,後續的解題步驟生成就更複雜了。除此之外,有道 OCR 還能實現手寫、模糊文字、拼音等識別,據有道 AI 團隊介紹準確率能達到 93%-95% 以上。此外在模型方面,有道也在探索更加前沿的解決方案,例如嘗試將 Transformer 嵌入到 OCR 任務中。

據了解,通過實驗室測試數據得出,在詞典筆 2.0 中,它識別字元的準確率平均達到了 95.5%,領先行業 82% 的平均水平。

上文介紹了,有道的標準 OCR 模型已經非常強了,但是將其應用到詞典筆 2.0 中還會存在很多挑戰,其中最大的問題即它只能看到字元片段,滑動的過程是看不到完整的詞或句的圖片。這就要求模型先要把圖像拼接起來,再來做 OCR 識別。

自適應全景拼接

簡單而言,圖像拼接是將存在重疊的圖像序列進行圖像配准(Image registration)和圖像融合(Image blending),並生成完整圖像的過程。其中圖像配準是建立圖像之間的對齊關係,以確定一張圖像與另一張圖像的空間投影關係,它是圖像拼接的核心問題。

常見的圖像配准方法很多都基於特徵的方法,這類方法會使用圖像的輪廓特徵、角點檢測和尺度不變特徵來確定圖與圖間的相似部分。例如基於尺度不變特徵的拼接方法,其過程分為特徵提取、特徵匹配、投影估計和圖像融合,它對光照、視角、雜訊和多種圖像變換具有較高的魯棒性。

但是標準方法在詞典筆的應用場景中還有很多不足,首先是特徵提取太過耗時。考慮一下,如果每秒需要提取一百多張圖片的特徵信息,而且還只能在移動端完成,那標準 SIFT 方法延遲會有多大啊。這種延遲是不可接受的,詞典筆需要一種能在移動端處理高幀率圖像的能力。

其次,相比通用的圖像拼接,文字圖像的輪廓特徵明顯但紋理特徵非常少,因此不同文字中很可能存在相同的特徵描述子。例如「三」和「十」都可能包含「一」這個特徵描述子,因此很可能導致錯誤的匹配與對齊。

網易有道根據實際應用場景自行設計了一套特徵,解決了這兩大問題,從而用自定義的方式快速提取特徵。相比傳統 SIFT 花 1 毫秒提取單張圖像的特徵,有道定製化的提取方法要高效很多。總體而言,詞典筆 2.0 所採用的圖像拼接方法可以分為圖像配准、圖像融合與文本切行三大步驟。

1. 圖像配准

有道詞典筆將掃描圖像分成若干圖像塊,對於每一個選取的圖像塊,模型會同時提取特徵匹配計算多對圖像塊的投影估計實現圖像對齊。

2. 圖像融合

根據圖像對齊關係,有道設計了自適應的圖像加權融合演算法,從而自然地融合對齊後的圖像。因為實際使用中手抖或滑動速度等因素,一般方法拼接出來的效果都不會太好。但有道的圖像融合能得到無重影、無接縫的完整拼圖結果,並且在多角度(與桌面夾角成 90 度至 60 度)掃描輸入下表現如一。

一般方法不穩定的拼接效果。

克服抖動、角度和滑動速度等因素得到的拼接結果。

3. 文本切行

最後,在實際使用中筆頭經常會跨越多行文本,得到的拼接圖像如上所示也不是乾淨的。為此,有道使用一個模型來將所有字元的候選位置信息關聯組行,即使在密集文本、抖動的情況下也能將目標行樣本分割出來。

掃一掃翻譯句子

這一次詞典筆 2.0 還有一個非常強力的功能,即離線地實現整句神經網路翻譯。目前有道的 NMT(簡稱 YNMT)可以實現中文到 12 種語言互譯,英文到 9 種語言互譯。翻譯效果 BLEU 值高出同行一些,尤其在特定測試集領域,比如新聞領域的中英文互譯上效果甚至優於谷歌和微軟。之前機器之心曾了解到 YNMT 模型主要也採用 Transformer 架構,並從單語數據的利用、模型結構的調整、訓練方法的改進等方面加強翻譯效果。

之前 YNMT 也會採用回譯、對偶學習和對抗訓練等策略加強翻譯結果的魯棒性,而最近隨著預訓練技術在 NLP 領域的大力發展,有道也將預訓練技術引入到了 NMT 訓練中。在最近發布的 ACL 2019 最佳長論文中,研究者非常關注訓練與推斷間的不匹配性,有道表示他們在這方面也一直有嘗試。有道表示這篇最佳論文比較突出的貢獻體現在挑選 Sentence-level Oracle Word,因此研發團隊也在進一步嘗試它的效果。

有道表示,通過加入 BERT 等預訓練語言模型後,模型有改善。此外在模型訓練時可以結合一些基礎任務,例如命名實體識別等,這種多任務學習機制對 NMT 的質量還是很有幫助的。有道同時也在探索怎樣在強化學習的過程中設置合適的獎勵,從而提升翻譯結果的流暢度與忠實度。

當然加入 BERT 等大模型的 NMT 系統是無法嵌入到詞典筆的,有道會採用更加精簡的離線端模型,在不顯著降低效果的同時極大壓縮模型。

掃一掃需要的算力支持

儘管模型的效果非常好,但如果不能嵌入到小小的詞典筆中,那麼使用體驗會差很多。但如果要嵌入端設備,那麼如何在有限的算力下實時運行這些系統就非常重要了。有道在詞典筆 2.0 中部署了 OCR、NMT 和 TTS 模型,而離線部署的最大問題是準確率和速度之間的權衡,為此有道做了很多優化。

其實詞典筆中的離線模型都是從線上模型演化而來的,且為了在給定算力的情況下實時運行,它們的結構和參數量都更為精簡。此外,通過網易有道自研的離線預測框架,開發者在保證準確率的同時能更方便地部署到嵌入式晶元上。因此對於端側模型部署,我們可以從模型壓縮和離線推斷工具兩方面探討。

1. 模型壓縮

模型壓縮滲透在訓練和預測各個階段。在訓練過程中,有道在緊湊設計的離線網路模型上通過網路剪枝進一步精簡模型,模型大小可以壓縮近百倍;在預測階段,有道使用了網路融合(network fusion)、低秩近似(low-rank Approximation)等技術減少計算參數量。重要的是,有道在支持定點計算的晶元上(如高通 DSP)實現了 int8 模型量化,能在少量損失下得到 4 倍壓縮比的定點模型。

除了採用各種模型壓縮演算法外,裁減詞表(NMT)、共享參數等方法也能降低模型大小。

因此從各個層面與角度出發,機器學習模型才能在不顯著影響性能的情況下大幅度降低對運算資源的需求。

2. 離線推斷框架

如果每一個模型都要一點點做優化,那麼整個模型部署過程是非常繁雜的,這就需要一種能自動高質量完成這個過程的工具,這也就是有道自研預測框架的重要原因。

有道的離線預測框架能夠根據模型的特點做一些優化處理,包括模型壓縮、層間合併,使用晶元支持的向量操作指令集,調整指令執行順序和邏輯結構,提高 cache 命中率、提高內存使用效率等。有道在這方面做了很多工作,目前離線框架已經比較成熟了,能夠支持 cpu、gpu、dsp、npu 等各種硬體平台,而且有道在端側的工程化都基於這個框架完成。

有道自研的離線預測框架支持 Caffe、TensorFlow、PyTorch 等主流 DL 框架訓練的模型,同時有道重點完成以下優化:

模型多框架的自動轉換、一鍵部署

模型異構晶元的自動壓縮、定點量化

模型跨平台的多線程並行計算加速

有道詞典筆 2.0 也會繼續添加新功能,例如據說 8 月底,詞典筆 2.0 就會通過 OTA 升級的方式支持整段翻譯,這對離線端 NMT 模型又提出新的挑戰。最後,不論是模型方法的創新,還是工程實踐的探索,將機器學習應用到英語學習場景都是非常值得探討的方向,網易有道詞典筆 2.0 就是很好的範例。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

貓主子總往家裡帶老鼠?那就用深度學習打造一個「貓門」吧
層旋轉:超強的深度網路泛化評價標準?

TAG:機器之心 |