想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

新聞 02-07

中科大一篇關於手語識別的論文被 AAAI 2018 接收。該論文提出一種新型連續手語識別框架 LS-HAN，無需時間分割。LS-HAN 由三部分構成：用於視頻特徵表示生成的雙流卷積神經網路、用於縮小語義差距的潛在空間和基於識別的潛在空間分層注意力網路。實驗結果表明該框架有效。

手語識別（SLR）面臨的一個重要挑戰是設計能夠捕捉人體動作、姿勢和面部表情的視覺描述符（descriptor)。主要有兩類：手動製作的特徵（Sun et al. 2013; Koller, Forster, and Ney 2015）和基於卷積神經網路的特徵（Tang et al. 2015; Huang et al. 2015; Pu, Zhou, and Li 2016）。受 CNN 近期成功的啟發，該論文作者設計了一種雙流 3D-CNN 用於視頻特徵提取。

時域分割是連續手語識別的另一個難題。連續 SLR 的常見方案是將句子分解成孤立的單詞識別問題，這需要進行時域分割。時域分割並不簡單，因為存在多種過渡動作，很難檢測。而且時域分割作為預處理步驟，如果分割不準確就會導致後續步驟中出現錯誤。此外，標註每個孤立的片段非常耗時。

受利用長短期記憶（LSTM）網路進行視頻描述生成的啟發，研究者使用分層注意力網路（HAN，LSTM 的擴展）繞過時域分割，考慮結構信息和注意力機制。該方案需要向 HAN 饋送整個視頻，然後逐詞輸出完成的句子。但是，HAN 可以根據輸入視頻和前一個單詞來優化生成下一個單詞的概率，但忽略了視頻和句子之間的關係（Pan et al. 2015）。因此，它會遇到是否穩健的問題。為了解決這個問題，研究者整合了潛在空間（LS，Latent Space）模型，以明確地利用視頻和文本句子之間的關係。

這篇論文的主要貢獻如下：

提出新型雙流 3D-CNN，用於視頻特徵表示生成；
提出適合連續 SLR 的新型 LS-HAN 框架，無需進行時域分割；
LS-HAN 框架對相關性和識別損失進行聯合優化；
編譯最大的開源中國手語（CSL）數據集（截至 2017 年 9 月）用於連續 SLR，數據集具備句子級別的標註。

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

圖 2：LS-HAN 框架。輸入是視頻和配套的標註句子。視頻用全局-局部特徵來表示，每個單詞用 one-hot 向量進行編碼。它們被映射到同一個潛在空間，以對視頻-句子相關性進行建模。研究者基於映射結果，利用 HAN 進行自動句子生成。

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

圖 3：動態時間規整（DTW）生成的相關規整路徑。X 軸表示幀索引，Y 軸表示詞序索引。網格表示矩陣元素 D[i, j]。（a）表示原始 DTW 的三種可能的對齊路徑。（b）表示 Window-DTW 的對齊路徑。

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

圖 4：HAN 通過注意力層對視頻進行分層編碼，並對輸入序列加權。它將隱藏向量表示逐詞解碼，組合成句子。

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

圖 5：測試階段中的對齊重建。（a）將視頻所有的片段分割成兩個子序列，並編碼成 HAN；（b）將每兩個相鄰的片段分割成一個子序列；（c）將所有片段平均分割成 7 個子序列（7 是訓練集的平均句子長度）。

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

表 2：連續 SLR 結果。粗體字方法是本論文所提出方法的原始和修改版本。

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

表 3：在 RWTH-PHOENIX-Weather 上的連續 SLR。

論文：Video-based Sign Language Recognition without Temporal Segmentation

想讓聽障人士聽懂？中科大新型連續手語識別框架或許能幫忙

論文鏈接：https://arxiv.org/abs/1801.10111

摘要：世界上數百萬聽障人士通常使用手語進行交流，因此手語自動翻譯很有意義，也很重要。目前，手語識別（SLR）存在兩個子問題：逐詞識別的孤立手語識別，翻譯整個句子的連續手語識別。現有的連續手語識別方法利用孤立 SLR 作為構造塊，還有額外的預處理層（時域分割）、後處理層（句子合成）。不過，時域分割並不簡單，且必然會向後續步驟傳播誤差。更糟糕的是，孤立 SLR 方法通常需要對句子中的每個單詞分別進行標註，嚴重限制了可獲取訓練數據的量。為了解決這些難題，我們提出了一種新型連續手語識別框架，帶有潛在空間的分層注意力網路（Hierarchical Attention Network with Latent Space，LS-HAN），無需對時間分割進行預處理。LS-HAN 由三部分構成：用於視頻特徵表示生成的雙流卷積神經網路、用於縮小語義差距的潛在空間（Latent Space，LS）和基於識別的潛在空間分層注意力網路（HAN）。我們在兩個大型數據集上進行了實驗，實驗結果表明我們提出的框架是有效的。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※在線深度學習：在數據流中實時學習深度神經網路

TAG:機器之心 |