自然語言處理的發展與應用
GIF
自然語言處理(Natural Language Processing,簡稱NLP)是語言學和計算機科學相互結合的產物。美國計算機科學家Bill Manaris曾說,「自然語言處理可以被定義為研究在人與人交流中以及在人與計算機交流中的語言問題的一門學科」。
20世紀初,現代語言學之父索緒爾奠基了符號學理論,使語言學研究成為一門科學。上世紀90年代開始,基於語料庫構建和統計的機器學習的自然語言處理興起,並逐漸進入繁榮期。統計機器翻譯大幅超越傳統基於句法分析的機器翻譯就是這個階段的代表性成果。進入21世紀以來,伴隨著互聯網普及,自然語言處理技術成為搜索、推薦、知識挖掘等各種互聯網應用的基礎技術,應用範圍非常廣泛。自然語言處理技術除了在學校和科研機構中進行,在各類互聯網企業中也廣泛展開。
2006年,加拿大多倫多大學教授Geoffrey Hinton發表了深度學習演算法研究的新進展。接下來幾年,深度學習首先在語音識別、圖像識別領域取得了重大突破。隨後,深度學習在機器翻譯領域也取得重大進展,讓機器翻譯效果大幅提升,進而被嘗試用於自然語言處理領域中的各種任務。蘋果、微軟、亞馬遜、Google等企業相繼發布了人機自然語言對話系統框架,自然語言處理迎來新篇章。
費爾迪南·德·索緒爾
Ferdinand de Saussure
自然語言處理的發展與應用
深度學習的廣泛應用
隨著深度學習的發展,神經網路模型也被成功應用在自然語言處理中。深度學習的一個重要特點是降低人工特徵構造和抽取的繁重工作,取而代之的是,通過靈活配置的模型結構,讓模型從數據中自動抽取各種關聯特徵。例如,在很多應用中,用自動學習得到的詞向量替代之前的one-hot作為模型的輸入,能更好地表徵詞與詞之間的相似性,提升對新詞的表徵能力。
在模型方面,從早期的DNN模型,到CNN模型,進而到RNN模型,深度學習模型逐步可以對應輸入信號的全連接關係、局部關係和序列關係。LSTM通過在循環神經網路中添加門機制,避免了梯度消失的問題。注意力模型模擬了人聚焦的過程,極大提升了序列到序列模型的能力,在機器翻譯任務上取得了非常好的結果;深度強化學習將神經網路和強化學習相結合,提高模型能力,被成功運用在對話管理等任務中。
深度學習模型的應用對訓練數據的依賴非常高,很多領域的實驗都證明,標註的訓練數據規模越大,標註質量越高,最終得到的模型效果越好。基於這個基礎,基於深度學習技術的自然語言應用更多地會成為擁有數據和計算能力的行業巨頭的特權。但是即便對於行業巨頭,標註訓練數據仍然是一個費時費錢的任務。針對這個困境,對半監督學習、無監督學習的研究正受到越來越多的關注。
基於場景的應用探索不斷湧現
在過去20年里,自然語言處理技術已經成為互聯網應用不可缺少的基礎技術。搜索引擎是自然語言技術成功應用的經典案例,圍繞搜索引擎出現的推薦系統、廣告系統都集成了大量自然語言處理技術。解決跨語言信息獲取的機器翻譯也取得了很大進展。
近幾年,自然語言交互系統成為了新的熱點。雖然通用的自然語言理解和對話管理距離實際應用還有很大差距,但針對若干特定場景和任務的人機對話系統已經逐漸進入人們的日常生活。人機對話系統的第一輪爆發是伴隨智能手機到來的,蘋果手機搭載的Siri把虛擬個人助理推進普通大眾的視野,後續微軟的Cortana,Google的Google Assistant陸續推出,國內也有多款手機助理已經推出。
隨著技術進步,自然語言處理領域也出現了一些有趣的新任務,如機器閱讀理解,並讓機器人參加人類的考試。智能客服,將人類的服務經驗沉澱在系統中並讓機器部分代替人的工作。相信未來還有更多新鮮有趣的應用場景會不斷湧現。
產業鏈逐步深入與完善
AI的火熱吸引了大量企業湧入,國內相關的生態鏈也逐步形成。一方面以BAT為代表的互聯網巨頭紛紛投身AI,全面拉開了人工智慧產業鏈的布局,覆蓋語音/圖像等交互技術、大數據、內容資源等方面。另一方面,國內專業技術企業則在各個垂直領域深入布局。一個產業的形成,除了核心技術,還需要上下游的配合,晶元和麥克風廠商、行業應用的廠商、終端產品的生產廠商等等。
自然語言處理的挑戰與發展
任何技術的應用都不是一蹴而就的,自然語言處理也是如此,深度學習推動了它的快速發展,同時也面臨一些挑戰。技術與產品相輔相成,互相反哺,新市場需求也推動著自然語言處理朝著場景化和平台化的方向發展,互動式智能服務成為一大風口。
深度學習面臨挑戰
雖然深度學習方法能夠更好地處理複雜的模式識別問題,但其在自然語言處理領域的應用也面臨著一些挑戰:
第一,深度學習模型一般需要大量的數據的進行訓練,辭彙量隨著數據規模的增加而增加,這通常會存在訓練數據無法覆蓋的情況,如何處理長尾問題是一個普遍存在的挑戰;
第二,各類智能終端計算能力有限,而深度學習模型往往需要強大的計算資源,這需要儘可能壓縮模型的大小以及提高硬體的計算能力;
第三,截至目前,深度學習模型並沒有良好的理論基礎,模型的可解釋性差,這阻礙了自然語言處理技術在醫療、金融等一些關鍵領域的大規模應用。
從研究角度,將基於符號的規則方法與深度學習方法相結合是解決該問題的有效策略。基於符號的規則方法可以直接利用自然語言處理中基於符號形式的知識,符號表徵易於解釋和操作,需要的訓練數據少,而神經網路中的向量表徵對歧義、雜訊具有一定的魯棒性,泛化性較好,能夠一定程度上衡量結果的不確定性。如果能把符號數據和向量數據結合起來,可以實現優勢互補,提升目前深度學習方法的可解釋性,減少對大數據的依賴。
深度學習中的監督學習方法與強化學習、無監督學習相結合是另一趨勢。過去幾年深度學習需要依賴大量有標註的數據,但數據標註費時費力,而獲取大量的無標註數據卻比較容易。如何利用大量的無監督數據提升系統性能將是一個重要的趨勢。此外,相比無監督學習,強化學習可以利用較弱的反饋信號,同時能夠直接優化學習的目標,因此將傳統自然語言處理任務轉化為適用於強化學習的序列決策任務也將是一個重要的方向。
互動式智能服務的風口即將到來
人工智慧驅動企業運營模式變革,從PC互聯到移動互聯網再到物聯網,企業跟客戶的觸點越來越豐富和多樣化。未來企業的競爭力在於服務能力,「服務智能化」成為必然趨勢,知識驅動的互動式智能服務是未來幾年的進化方向。
要做到互動式智能服務,首先,要進行以語音為主的交互方式的接入,並推進對話能力的大規模定製。其次,要構建企業專有知識體系,企業擁有自身專有知識,將知識結構化,並最終使它能夠自動交互,就能夠極大節省生產力,提高工作效率。對企業而言,其在產品知識、售後方案、人事政策、財務政策等方面都擁有相應的知識,這是一個結構複雜的知識體系。思必馳北京研發院將以此為發力點,從人機交互方面切入,推動傳統行業的變革。過去的知識服務是為搜索引擎而優化的,未來,知識服務必然要考慮到互動式的查詢和需求。
自然語音處理的應用需要知識來驅動,企業最終會擁有自己的專用數據和知識,並最終會生成相應的自然語言理解模型、對話管理的模型等,幫助企業將自身的知識轉化成可互動式的。未來將是知識驅動的交互智能,不同企業/行業專用知識資源的開放合作,能夠加快建立有機生態。
一直以來,中潤普達都致力於大數據人工智慧領域的研發和技術創新,以技術驅動為中心,堅持「把中文認知計算革命進行到底」。作為國內基於中文認知計算的大數據應用專業服務機構,運用自主研發的中文大數據認知矩陣(信源矩陣、分詞矩陣、規則矩陣)計算技術,配合豐富的業務場景模型和中文大數據動態平衡模型,將深度語義分析系統作為核心技術為眾多行業服務,構建各行業的專屬語義模型,自動提取專有辭彙和核心語義,建立垂直行業知識圖譜。該技術以特有的結構化方式分析文字含義,深入到各類非結構化數據自我訓練,可以全面幫助政府、企業和機構開啟大數據決策、預測、運營、精準營銷和效能管理。
結語:
雖然近年來深度學習促進了自然語言處理技術的發展,但是未來仍然面臨著巨大挑戰,這既要求基礎研究上深度學習方法與其它方法相結合,同時也需要產業上通過場景化的應用逐步拓展應用邊界。我們相信未來自然語言處理技術將給人類生活帶來更大的改變,相輔相成,相伴而行。
TAG:中潤普達大數據 |