效仿嬰兒學習語言，MIT打造了一個具有觀察力的AI模型

新聞 11-02

Lentil｜撰文

幾乎每種動物都有自己的溝通方式，我們也是如此，在長時間積累與學習後，才形成了多種多樣精密複雜的人類語言。未來的AI將擁有像人一樣的思想和情感，而現在的它們還處在小孩子牙牙學語的階段，在學會了人類的語言後，才能更好地了解我們的需求並提供幫助。

而兒童學習語言的過程是通過觀察周圍環境以及聆聽周圍人說話，找出視覺與聽覺信息之間的關聯。這一過程能幫他們掌握語言的辭彙順序，比如句子結構中主語和動詞的位置。

而在計算機領域，語言學習是語法和語義分析器需要執行的任務。訓練它們需要使用使用人工標註的句子，這些標註提供了句子結構和詞語含義的信息。語法分析器對於網頁搜索、自然語言資料庫查詢、Alexa和Siri等語言識別系統越來越重要，很快，這項技術可能也會被用在家用機器人身上。

但是對於一些小語種來說，收集標註數據費時又費力。甚至，不同的標註者有不同的想法，而且人工標註的結果還不一定都能準確反映人們自然說話的方式。

本周，在比利時布魯塞爾舉行的2018年自然語言處理實證方法大會（EMNLP）上，MIT科研人員展示了一篇新的研究論文，論文描述了一款語法分析器，它通過觀察來模擬兒童語言學習過程，能力得到了大幅度加強。在學習語言結構的過程中，科研人員會讓它觀察加了字幕的視頻（不提供其他額外信息），字幕中的文字與視頻中記錄的物品與行為互相關聯。之後科研人員會給它一個新的句子，讓它在沒有視頻輔助的情況下，通過學到的語言結構準確預測句子的意思。

通過這種「弱指導」的方式（不需要太多訓練數據），語法分析器能夠模仿兒童觀察周圍環境學習語言，不需要額外的直接語境信息。MIT科研人員稱，這種方法不僅能夠擴充訓練數據的類型，還能夠降低訓練語法分析器需要投入的精力。用幾個直接標註的句子，加上多隻配有字幕的視頻就可以提高分析器的性能。

在將來，這款語法分析器可以被用來提高人類與機器人之間的自然交互。比如，使用它的機器人，將能夠不斷觀察周邊環境強化對語音命令的理解，包括在口語不符合語法規律或者不清楚的時候。

論文合著Andrei Barbu表示：「人們日常對話的時候會一句話說一半，或者內容都是流水賬、難以理解的話。家用機器人最好是不僅能適應主人的說話方式，還能了解他們的用意。」據悉，Andrei Barbu是MIT計算機科學與人工智慧實驗室（CSAIL）與麥戈文研究所大腦、心智和機器中心（CBMM）的一名科研人員。

此外，這款語法分析器還能夠幫助科研人員理解小孩子學習語言的過程。CSAIL InfoLab小組組長兼首席研究人員與論文合著Boris Katz表示：「孩子能接觸到各種形式的大量間接信息，包括父母與兄弟姐妹談論新聞時產生的聽覺信息，還有觸覺信息和視覺信息，這些都能幫助孩子了解這個世界。如何同時處理這麼多感知信息，是一個有趣的謎題，訓練語法分析器也是為了幫助理解這種學習的方式。」

視覺與文字結合的學習

在這項研究中，科研人員使用了語義分析器與一款通過視頻訓練，能夠識別物體、人類與行為的計算機視覺元件。通常訓練語義分析器會使用以代碼標註的句子，這些代碼包含詞語含義與關係，有的還會使用靜態圖像或者計算機模擬圖來訓練。

論文第一作者Candace Ross表示，這款新的語法分析器是首次使用視頻來訓練的。視頻在某種程度上更直觀，可減少歧義。假設語法分析器對於句子中的某種行為或者物體不確定，它能夠參考視頻來消除疑慮。Ross表示：「在靜止的圖像或者文字中，並不能看出一些時間的變化、物體之間或與人的交互等元素。」

據悉，這組科研人員編輯了一個包含約400隻視頻的數據集，視頻內容是人類做出一些行為，包括拿起或放下一樣東西，和朝著某樣東西走去。隨後眾包平台Mechanical Turk的參與者們為這些視頻提供了1200份字幕。其中840份視頻字幕用於訓練與微調，剩下的360用於檢測。Baru認為，使用基於視覺的語法分析器的好處在於「不需要那麼多數據，但是如果有大量數據，便可以擴充數據集內容。」

在訓練過程中，科研人員為語法分析器設定的目標是判斷一段話是否準確形容了視頻中的內容。他們會為分析器提供與字幕匹配的視頻，然後它將字幕的大意以邏輯數學表達式來提取。打個比方，「那女人正在摘蘋果」可能會被分析器以λxy. woman（女人） x, pick_up（摘） x y, apple（蘋果） y的形式表達。

之後數學表達式與視頻將被導入基於計算機視覺的演算法Sentence Tracker，這項演算法由Barbu等科研人員研發。它會分析視頻的每一幀，追蹤物體與人隨時間的變化，判定視頻中的行為是否與文字描述的一致。

匹配視頻與字幕

與視頻中的物體、人和行為最接近的表達式，將最有可能代表字幕的含義。一開始，這些表達方式可能指的是視頻中許多不同的物體和行為，但是它們可作為一種訓練序列，幫助語法訓練器持續篩選正確答案。Baru表示：「通過假定所有的文字必須遵循相同的規則、來自相同的語言，那麼在觀看過許多帶字幕視頻後，它能夠進一步篩選正確的意思。」

簡單來講，這款語法分析器通過被動觀察來學習：為了判定字幕是否代表了視頻的內容，它必須識別字幕最有可能的含義。Baru解釋：「唯一能判定字幕是否與視頻匹配的方式，就是去探索這句話的意思，否則，就不會知道如何將視頻與字幕關聯。我們不會為分析器提供字幕的含義信息，只是讓分析器了解，這裡有一段視頻和字幕，二者匹配，但是你需要找出一個中間媒介來解釋字幕的意思，才能確定（有點「換個說法」的意思）。」

這場訓練讓分析器學會了語法與語義的規則，在看到個新句子的時候，它不在需要視頻，只需要分析句子語法、參考字典就能夠推敲出句子結構和含義。

布朗大學的一名計算機科學教授Stefanie Tellex表示：「這項研究正是自然語言處理該走的發展方向，要想理解基礎語言，必須學會用語義來表述，但是訓練的時候人工標註語義操作起來並不實際。這項研究使用帶字幕的視頻來訓練語法分析器識別語言結構，正是我期待的那樣。」據悉，Tellex在大學的研究方向是幫助機器人使用自然語言與人類交流。

未來，這些科研人員或許會在被動觀察基礎上探索交互模型。Ross表示：「兒童一邊與環境交互一邊學習，我們的學習模型也是模仿這種用感知學習的方式。」本文系青亭網翻譯自：MIT News

（END）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 青亭網 的精彩文章:

※三星為Note 9用戶免費提供Gear VR適配器
※三部VR紀錄片登陸Oculus商店，旨在改變社會偏見現象

TAG:青亭網 |