當前位置:
首頁 > 新聞 > 阿里智能音箱發布前夕,首次公布自然語言處理成果

阿里智能音箱發布前夕,首次公布自然語言處理成果

機器之心報道

機器之心編輯部


阿里巴巴AI Labs 將在7月5日發布第一款智能音箱設備的消息引發了國內極大的關注,但讀者們不僅不熟悉阿里巴巴AI Labs,對阿里自然語言處理方面的成果是不是也不理解?這篇文章介紹了阿里巴巴被國際數據挖掘頂會KDD2017收錄的一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》。

阿里智能音箱發布前夕,首次公布自然語言處理成果上周,關於阿里巴巴成立 AI Labs 的消息不脛而走。事實上,該機構在 2016 年低調成立,主要負責阿里巴巴集團旗下消費級 AI 產品研發,與 iDST 的定位有所區別。從機器之心收到的發布會邀請函及其他公開消息看,7 月 5 日,該機構將發布第一款實體產品智能音箱設備,它能夠理解中文語音指令,還能讓阿里巴巴的用戶在淘寶上購物,短期內僅面向中國市場發售。

與此同時,這次為阿里巴巴智能音箱提供技術支持的團隊也首次曝光了其自然語言處理成果。一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》被國際數據挖掘頂會 KDD2017 收錄。在自然語言處理的兩個核心應用場景------文本分類和智能問答上,阿里巴巴這套「即刻喚醒,即刻識別」神經網路模型的智能問答準確率相比微軟的 wikiqa 數據集和 IBM 的 insuranceqa 數據集提升了 2-4%,是目前業內最高水準。

該論文的作者、阿里巴巴人工智慧實驗室資深演算法工程師王成龍對機器之心談到這項技術的挑戰,「初期相關模型訓練所需的語料較缺乏,在開發的同時,我們積累起來一批獨有、海量的中文語料,有力支持了我們的模型訓練。神經網路模型的計算複雜度比較高,性能問題是線上應用的一個主要瓶頸,這一方面,我們針對神經網路模型的線上部署做了很多的優化工作,保證在大並發請求下依賴能有較好的性能。」

另一方面,基於神經網路的 NLP 方法都依賴分詞,英文的分詞是天然的,而中文是以「字」為單位,這也使新品技術開發的難度有所提高。王成龍說:「英文的句子結構則更加清晰,而漢語重意合而不重形式,句子結構比較鬆散,中文相關標準語料集的缺失也是一大瓶頸。」

阿里智能音箱發布前夕,首次公布自然語言處理成果

KDD 2017 將於今年 8 月 13 日召開

阿里智能音箱發布前夕,首次公布自然語言處理成果

阿里巴巴收到 KDD2017 的邀請郵件

論文顯示,阿里巴巴研發了一款名為 conv-RNN 的通用推理混合框架,用於文本的語義建模,無縫集成了從卷積和循環神經網路結構中提取語言信息的不同方面的優點從而加強新框架的理解力。可有效甄別用戶的對話意圖,自主決策對話中的策略,實現「自然語言無縫理解,跨領域自由切換」。

阿里智能音箱發布前夕,首次公布自然語言處理成果

阿里巴巴首創的 conv-RNN 混合框架

業界普遍認為,自然語言處理是人工智慧中最難的部分,也是決定 AI 是否「智能」的關鍵因素。王成龍在接受機器之心採訪時說,「阿里巴巴在語音交互技術方面已經深耕多年,並已在多類產品中應用。」

針對這篇論文,該團隊向機器之心發布了獨家技術解讀:

語義編碼的意義

自然語言這一被人類發明的信號系統,通常被我們歸為一種「非結構化數據」。其原因在於,自然語言文本是由一堆符號(token)順序拼接而成的不定長序列,很難直接轉變為計算機所能理解的數值型數據,因而無法直接進行進一步的計算處理。語義編碼的目標即在於如何對這種符號序列進行數值化編碼,以便於進一步地提取和應用其中所蘊含的豐富信息。語義編碼是所有自然語言處理(Natural Language Processing,NLP)工作的「第一步「,同時也很大程度地決定了後續應用的效果。

傳統的文本編碼方式通常將其當作離散型數據,即將每個單詞(符號)作為一個獨立的離散型數值,如 Bag-of-Words (BOW)、TF-IDF 等。但是這類方法忽略了單詞與單詞之間的語義關聯性,同時也難以對單詞的順序及上下文依賴信息進行有效編碼。近幾年,深度學習技術被廣泛的應用於 NLP 領域,並在眾多演算法命題上取得了突破。其本質在於,深度神經網路在特徵提取(語義編碼)上具有極大的優勢。

已有方法的瓶頸

當前,較為常用的文本語義編碼模型包括循環神經網路(Recurrent Neural Network,RNN)以及卷積神經網路(Convolution Neural Network,CNN)。

阿里智能音箱發布前夕,首次公布自然語言處理成果

循環神經網路是應用最為廣泛的序列數據神經網路建模方法。相對於傳統的前向神經網路,循環神經網路的主要特點在於,在每個時刻,其輸出不僅要依賴於當前時刻的輸入,還要考慮上一時刻的模型「狀態」。通過對歷史狀態的依賴,RNN 模型能夠有效的表徵文本數據的上下文依存信息。但是,RNN 的「宏偉目標」-有效管理任意跨度的信息傳遞-往往使得其難以有效的訓練,進而也限制了其在具體應用中的效果。

阿里智能音箱發布前夕,首次公布自然語言處理成果

另一被廣泛應用的語義編碼模型是 CNN 模型。傳統的 CNN 建模通常用於解決圖像的特徵提取。但近年來,眾多學者嘗試將其應用到文本處理領域。CNN 的模型結構來源於對人類視覺神經信號處理機制的模擬。與文本數據不同的是,圖像數據通常被看做一個二維數據結構,而相應的 CNN 模型也更適於提取其中的「局部」特徵。但與圖像數據相似的是,文本數據中的上下文依賴通常可以被簡化為一種「局部」信息,即傳統 NLP 領域中的 N-gram 語言模型:文本中一個詞的具體含義,通常只和上文有限距離內的幾個詞相關。因此,CNN 中的「局部卷積」信息處理機制同樣可以應用於文本數據中,用於提取文本中的 N-gram 特徵。但是,與圖像信息不同的是,文本數據中的上下文依賴關係有可能會經歷一個很長的跨度。而 CNN 只能對固定範圍內的局部依存關係進行建模。因此,CNN 語義編碼方法也存在一定的缺陷。

Conv-RNN

阿里智能音箱發布前夕,首次公布自然語言處理成果

近期,我們團隊與數據技術及產品部兄弟團隊共同投稿一篇 KDD 文章,其中我們提出了一種新的文本語義編碼演算法 conv-RNN(如圖 2 所示)。該模型在參考了循環神經網路與卷積神經網路的同時,進行了進一步的文本語義編碼優化。conv-RNN 不僅保留了 RNN 模型對不定長跨度的上下文依賴的編碼能力,還利用了 CNN 模型中常用的最大池化機制,用以更加簡潔地從文本數據所蘊含的豐富信息中抽離出不同的信息表徵。此外,在 conv-RNN 的基礎上,我們還提出了一種新的智能問答(answer selection)模型以及文本分類(sentence classification)模型。為了充分驗證所提出的模型的效果,我們分別選取了智能問答及文本分類領域的一批標準數據集,與當前業界的最新成果進行了對比驗證。

智能問答

阿里智能音箱發布前夕,首次公布自然語言處理成果

智能問答是當前比較火的一個 NLP 應用領域,也被認為是 NLP 研究最有可能於近期實現商業化落地的一個領域。在 conv-RNN 語義編碼演算法基礎之上,我們進一步提出了一種新的問答匹配模型。此外,在該模型中,我們還引入了一種「權值共享」機制以及 attention 方法,用以進一步提升 question-answer 匹配效果。

阿里智能音箱發布前夕,首次公布自然語言處理成果

阿里智能音箱發布前夕,首次公布自然語言處理成果

我們選用了微軟發布的 WikiQA 數據集以及 IBM 發布的 InsuranceQA 數據集用來對比所提出的模型與業界的 state-of-the-art 方法,以驗證該模型的有效性。由結果可知,在 WikiQA 數據集上,conv-RNN 擊敗了所有 state-of-the-art 方法,並且在 MAP(mean average precision)和 MRR(mean reciprocal rank)兩個指標上均取得了較大的提升。在 InsuranceQA 數據集上,conv-RNN 在 dev 和 test2 兩個測試集上均取得了較大的提升,僅在 test1 上略低於 AP-BILSTM。

文本分類

阿里智能音箱發布前夕,首次公布自然語言處理成果

在 conv-RNN 的基礎上,我們進一步提出了一種新的文本分類模型(如圖 4 所示)。為了驗證該模型的有效性,我們選取了業界常用的 5 個標準的分類數據集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由對比結果可知,conv-RNN 在前 4 個數據集上均超越了各類 state-of-the-art 方法。

阿里智能音箱發布前夕,首次公布自然語言處理成果

總結

語義編碼技術是所有 NLP 工作的基礎,也是當前 NLP 技術進一步發展的主要「瓶頸」所在。我們在語義理解以及更上層的智能問答、多輪人機交互方向已經有了一定的技術積累,後續還會繼續在這一方向發力,以期能夠儘快做出為大眾服務的人工智慧產品。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

從任務到可視化,如何理解LSTM網路中的神經元
通過提取神經元知識實現人臉模型壓縮:MobileID可在移動設備上快速運行
AI 應用於垂直領域,如何改善這八大行業?
孵化器 Y Combinator 要用創業公司改變世界
亞馬遜詳解如何使用MXNet在樹莓派上搭建實時目標識別系統

TAG:機器之心 |

您可能感興趣

保姆縱火案:二審結束擇期宣判,莫煥晶爭取減刑,現場視頻首次公布
他作為「秘密武器」,出道前才對外公布,如今成為了頂級愛豆
朱亞文自爆離婚,謝娜宣布退出快本,阿信終於公布TA!
阿嬌被求婚事件公布,當年的電腦程序員發聲,讓阿嬌釋然
趙麗穎首次公布背台詞訣竅,巔峰背後是不懈的努力
關穀神奇飾演者首次對外界公布對象,完全沒有想到竟然會是愛情公寓中的她?
解鎖未來!全球首款屏幕指紋旗艦發布時間公布!
高雲翔事件DNA結果已經出爐,將在下次庭審公布,真相即將大白
緊隨其後!余文樂公布預產期後,黎明宣布為人父!
天津權健第一輪首發陣容公布,是意外還是煙幕彈?
「不僅『顏值』高,『氣質』也相當好」,政協首場發布會金句頻出!日程安排首公布!
爐石傳說所有新卡公布完畢,我安度因宣布提前登頂!
劍俠馬天宇出席手游發布會現場示範「捏臉」 首次公布心儀女神
正式公布與景甜戀情之前,張繼科至少暗示了我們三次
索尼E3發布會時間公布 將深度展示《死亡擱淺》
開播啦!《鋼琴之森》聲優感言公布
從公布戀情到求婚成功,現在二人將要修成正果,祝福!
蘋果不久將會公布其原創電視內容計劃
《翡翠戀人》終於要來了,定檔安徽衛視,首次公布開播時間
前腳謝依霖宣布結婚獲網友祝福,後腳又有明星情侶公布結婚