當前位置:
首頁 > 最新 > 人工智慧=深度學習?

人工智慧=深度學習?

今天要向大家隆重推薦由Facebook研究科學家、前微軟亞洲研究院主管研究員王仲遠博士撰寫的一本新書《短文本數據理解》

短文本數據理解

該書選取了如何讓機器「智能」地理解「短文本」(比如搜索查詢、廣告關 鍵字、標籤、微博、問答、聊天記錄等)這一前沿研究課題,彙集了王仲遠博士及其合作作者在國際頂級學術會議發表的前沿論文,介紹了在微軟和Facebook實際產品中所應用的相關技術,是一本同時適合學術界和工業界人士閱讀的書籍。

近年來,「人工智慧」這個已經存在幾十年的詞重新成為一個熱詞。尤其是隨著AlphaGo的橫空出世,一般百姓對於人工智慧都有所耳聞,許多公司更是宣布把人工智慧作為未來最重要的戰略方向。由於近期在圖片、語音識別的技術突破,以及AlphaGo背後的技術,都採用的是深度學習技術,使得許多人認為人工智慧就是深度學習。

然而,在許多業內人士看來,儘管深度學習確實推動了一撥技術變革,但其所代表的人工智慧技術仍然是「弱人工智慧」技術。其典型特徵是: (1) 面向某一個具體問題(比如下圍棋,識別視頻中的貓,打某一款遊戲,等等);(2)需要大量訓練數據。雖然許多系統宣稱能夠「遷移學習」到不同的領域,但在實際系統中,總是還遇到這樣或那樣的困難。這也是為何深度學習在圖像、語音領域已經有突破性進展,但在自然語言處理領域,雖然大量論文湧現,並且在一些系統中也實際應用,但仍然只是處在「厚積」的階段,等待「薄發」的那一刻。

與此同時,學術界始終存在著不同觀點的爭論。例如,2015年12月美國《科學》雜誌封面文章《Human-level concept learning through probabilistic program induction(通過概率程序歸納法實現人類層次的概念學習)》中, 三名分別來自麻省理工學院、紐約大學和多倫多大學的研究就指出:人類常常只需要一個或數個例子就可以學習出一個新的概念,而機器卻需要數百個例子才能達到相似的識別精度。例如,當人們看到一個新型的二輪平衡車實例後,可以很容易將它從獨輪車、自行車、摩托車、汽車中識別出來。但是對於機器而言,目前還不具備這樣的能力。深度學習仍然像是一個深不見底的「記憶黑盒子」,需要通過大量的訓練樣例,才能夠學出超出人類能力的本領。在這篇《科學》雜誌封面論文中,作者直指深度學習的軟肋,並聲稱通過「貝葉斯程序學習」能夠模擬人類認知,並通過了圖靈測試。雖然三位作者和深度學習頂尖大牛Geoffrey Hinton相互之間都禮貌地表明,「貝葉斯程序學習」和「深度學習」在不同的任務上各領風騷,假如能彼此借鑒,一定能互相彌補,但是學術界中的「貝葉斯派」和「神經網路派」的「暗戰」還在持續。

言歸正傳,在自然語言處理領域,文本理解仍然是人工智慧尚未攻克的難題。雖然「微軟小冰」已經能夠陪人聊天,並且在微軟研究院研究團隊的鼎力支持下,正在具備「情感」以及「個性」,但是業內人士仍然清楚地意識到,基於檢索方式以及LSTM的技術方案,或許能夠讓產品顯得「人工智慧」,但是離真正地能夠「自主學習」的「人工智慧」仍然相去甚遠。這是因為,雖然計算機當下能輕而易舉地戰勝世界圍棋冠軍,但是它的學習能力以及文本理解的能力可能都遠不及一個三四歲的孩童。

去年10月底,微軟研究院發布了Microsoft Concept Graph(微軟概念圖譜,https://concept.research.microsoft.com/)。其核心知識庫包含了超過540萬條概念。除了包含一些被絕大部分通用知識庫包含的概念,例如「城市」、「音樂家」等,Microsoft Concept Graph還包含數百萬長尾概念,例如「抗帕金森治療」、「名人婚紗設計師」、「基礎的水彩技巧」等,而這些概念在其他的知識庫中很難被找到。這個概念知識圖譜,可以讓計算機掌握「常識」(這是人類理解萬物的基礎),從而模仿人類進行簡單推理。

基於概念知識圖譜進行推理的過程叫做概念化,它是模擬人類看到短文本時在腦海中形成推理的過程。例如,當我們看到「蘋果」的時候,我們會知道它有可能是一種水果,也有可能是一家公司;當我們看到「蘋果工程師」的時候,我們腦海中會形成簡單的推理,認為這個「蘋果」很有可能是指蘋果公司;更進一步,當我們看到「蘋果工程師在吃蘋果」,由於「吃」這個動詞的存在,這個短文本中的第二個「蘋果」指的就應該是水果。這種基於不同上下文進行推理的過程就是「概念化」(Conceptualization)。目前,機器已經能夠完全模擬這一過程,進行「常識推理」,從而對文本產生一種顯性理解結果:「概念化向量」。這種向量與基於深度學習產生的詞向量類似,可以用於進行語義相似度計算,但是不同點是「概念化向量」是可解釋的,而由深度學習產生的詞向量是不可解釋的。

在大數據管理叢書主編孟小峰教授以及機械工業出版社的協調下,Microsoft Concept Graph(微軟概念圖譜)前負責人以及其概念化核心演算法設計者王仲遠博士將其發表的眾多頂級學術會議論文以及前沿演算法彙集成冊,即《短文本數據理解》,由機械工業出版社大數據管理叢書在今年5月出版。

本書作者王仲遠博士,現在是美國Facebook公司Research Scientist(研究科學家)。他帶領一個團隊,負責Facebook網站每天數十億Query(查詢)以及Post(帖子)中的實體識別與鏈接。他的團隊僅用半年時間就將原有產品的關鍵指標F1提升了80%,達到業界最高水準。加入Facebook前,他是微軟亞洲研究院的主管研究員,領導微軟研究院的兩個知識圖譜項目Probase(即微軟的概念知識圖譜/Microsoft Concept Graph)和Enterprise Dictionary(企業知識圖譜項目),以及一個人工智慧助手項目Digtal Me。他多年來專註於知識圖譜及其在文本理解方面的研究,已在SIGMOD、VLDB、ICDE、IJCAI、AAAI、CIKM、EMNLP等國際頂級學術會議上發表論文30餘篇,其中包括ICDE 2015最佳論文獎。他也是國際自然語言頂級學術會議ACL 2016 Tutorial 「Understanding Short Texts」的主講人之一。目前已出版技術專著2本,擁有美國專利5項。他的研究興趣包括:文本理解、知識庫系統、自然語言處理、深度學習、數據挖掘等。

書中所介紹的方法已經在微軟以及Facebook的許多產品中成功應用。因此,本書既介紹了短文本理解前沿科研技術,又是為數不多能夠具體落地的產品技術。適合學術界和工業界相關研究人員閱讀,也適合對人工智慧、自然語言處理技術、知識圖譜感興趣的讀者。

END

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據 的精彩文章:

TAG:大數據 |

您可能感興趣

人工智慧–深度學習
人工智慧與深度學習
人工智慧與深度學習
人工智慧深度學習探討
人工智慧–深度強化學習
AI 人工智慧的深度學習
人工智慧深度學習培訓哪家好?
智慧學習環境+人工智慧+大數據+深度學習…
人工智慧、機器學習和深度學習
遊戲中的深度學習與人工智慧
人工智慧世界裡的機器學習與深度學習
《深度學習-人工智慧更懂你》
人工智慧及機器學習與深度學習揭秘
什麼是深度強化學習:人工智慧和深度學習的下一步
數據科學,人工智慧,機器學習,深度學習到底啥關係?
一文讓你看懂人工智慧、機器學習、深度學習和強化學習的關係
人工智慧、機器學習、深度學習和人工神經網路的介紹和發展
兩分鐘,了解人工智慧、機器學習和深度學習的區別
HPE發力人工智慧 更新深度學習伺服器
人工智慧,機器學習和深度學習之間存在著細微差別