當前位置:
首頁 > 最新 > 探討自然語言處理的商業落地:從基礎平台到數據演算法

探討自然語言處理的商業落地:從基礎平台到數據演算法

AI 科技評論按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了深圳市寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平台。

CCF-GAIR 2018 延續前兩屆的頂尖陣容,提供 1 個主會場和 11 個專場(仿生機器人,機器人行業應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI晶元,IoT,投資人)的豐富平台,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。

在第三天上午的自然語言處理專場上,在精彩的大會報告及主題演講結束後,四位企業界的嘉賓為在場觀眾分享了他們在實踐中的技術收穫,並在圓桌討論環節暢談自然語言處理的落地難點及應用未來。以下為圓桌環節全文整理,雷鋒網做了不改動原意的編輯和整理。

奕欣:各位觀眾和嘉賓上午好,我是雷鋒網 AI 科技評論主編奕欣,很榮幸擔任 NLP 專場圓桌主持人,剛剛我們聆聽了非常多的大會報告及主題演講,也對 NLP 在學術前沿的認識有了充分而深刻的感知,接下來我們將以更加深入的角度了解自然語言處理的商業落地,也是本次圓桌論壇的主題。

四位圓桌嘉賓分別是:雲孚科技創始人兼 CEO 張文斌;竹間智能 CTO 翁嘉頎;神州泰岳大數據 VP 張瑞飛;薄言 RSVP.ai 聯合創始人 CTO 熊琨。

首先邀請每位嘉賓用五分鐘的時間做一個技術分享,首先掌聲有請:雲孚科技創始人兼 CEO 張文斌先生;雲孚科技致力於做全球領先的中文語義技術服務商,核心工具包括 NLP 工具包、知識圖譜、文本挖掘及對話等。

張文斌:大家好!我是雲孚科技 CEO 張文斌,感謝雷鋒網和劉老師的邀請,可以在這裡跟大家探討雲孚科技對 NLP 商業化上的理解和一些探索工作。

雲孚科技是一家初創公司,2017 年 8 月成立,專註於為企業提供自然語言處理技術解決方案,創業團隊來自於 BAT 的 NLP 團隊,還有哈工大社會計算與信息檢索中心技術入股我們,中心主任、哈工大人工智慧研究院副院長劉挺教授擔任首席科學家。目前也積累了包括科大訊飛、百度、騰訊在內的合作夥伴。

首先說一下 NLP 的特點,NLP 的一大特點是需求非常多,NLP 核心處理語言文字,需求非常廣泛。這是各行各業的客戶提出的真實需求,任務非常多,這是 NLP 的第一大特點。第二大特點是 NLP 難度非常大,這是我們搜集的分分鐘逼死 NLP 從業者的的 CASE,比如「校長說衣服上除了校徽,別別別的」,計算機理解起來會非常難。再比如這首打油詩,字都一樣,稍微調換一下順序,表達的意思就完全不同。中文博大精深,對從業者的挑戰非常大。

接著看商業化,商業化的本質首先一定要盈利,其次要做到規模化盈利,這也是創業公司最本質想做的事情。對於人工智慧這一塊的創業公司要盈利,大方向有兩個,做 toC 直接面對消費者,和做 toB 面對企業。雲孚科技選擇了 toB,周期相對可控,比較容易把營收做起來。規模化盈利又有兩個方向,創業公司選擇最多的是深入行業做垂直行業的應用,這樣可以規模化做特定行業用戶,而且可以做大訂單,這是一個方向,也是投資人比較認可的方向。我們還看到另外一個方向,就是做基礎技術平台,因為它足夠基礎,可以面向多個行業的客戶提供產品,訂單相對比較小,但客戶數更廣,這個方向也可以做出規模化盈利的效果。

結合我們團隊的特點,包括我們對於產業的判斷,還有一點就是 NLP 的技術難度非常大,前面幾位老師從學術界作出的效果,因為任務非常多,很多指標在 70、80% 的階段,整體基礎技術平台的很多任務沒有達到理想效果,所以雲孚科技先選擇把基礎技術平台做好,創業公司的核心不是提出新的模型和演算法,我們是結合學術界最好的模型和演算法,從工程、數據角度,把效果優化到理想程度。

最終我們的戰略打法總結起來就是:「先橫後縱、自底向上」——先做橫向的、底層的技術平台,再做縱向的、上層的行業應用,這是我們有別於很多 AI 創業公司的打法。

這是我們目前的技術產品架構,最底層是雲孚自然語言處理平台,中間一層是文本挖掘平台,最上面一層是企業智能信息處理平台,為企業提供各種智能化信息處理解決方案。

NLP 是一個非常有意思的領域,難度很大,價值也非常大,雲孚科技探索之路上狂奔,也歡迎有意願的朋友和我們一起探索 NLP 領域無限的可能性。謝謝大家!

奕欣:非常感謝張先生的精彩發言。接下來有請竹間智能 CTO 翁嘉頎先生,翁嘉頎先生負責竹間智能在 AI 領域產品研發與技術規劃,涵概對話機器人、計算機視覺、金融科技等領域,掌聲有請。

翁嘉頎:各位好,我是翁嘉頎,我們公司主要是做情感計算和文本分析、自然語義理解,情感計算。跟別人不同的地方是我們不只做文本情感,還做語音情緒和表情。比如高考剛結束,如果你看到一段文字「我高考考了 500 分」,這個時候你應該恭喜我還是安慰我?其實你不知道,這就要看我講話的語氣。

我們公司的創辦人 Kenny 之前是微軟工程院副院長,負責 Bing、小冰、小娜,我之前是做搜索引擎的,公司很多同事也是做搜索引擎出身的,你會發現做人工智慧的很多人都是從搜索引擎公司出來的。

文字情緒有 22 種,說 22 種有點多,至少負面情緒,反感、憤怒、悲傷、害怕要分開,我害怕、我傷心、我憤怒雖然都是負面情緒,但人機交互的反饋應該不一樣。人臉表情我們做了 9 種,語音情緒做了 4 種,然後把它合在一起。

來看一個例子,這是兩年前最有名的一段視頻,左上角是她的人臉表情,左邊的中間是語音情緒,左下角是文字情緒,傅園慧說「在澳洲訓練非常辛苦,我已經快死了,簡直是生不如死」從文字上來可能是憤怒的。「鬼知道我經歷了什麼,我太累了」,文字上是辛苦的,但是人臉表情、語音情緒不是,所以總結起來還是開心的。這個視頻不管看多少次你都會非常開心。

我們目前主要在金融、電商、IOT 領域、運營商等領域落地,公司成立近三年,除了第一年做技術的打磨,後面都是在做客戶的落地項目,我想分享的是目前人工智慧必須從單個到單獨的領域去突破,去那個領域先收集語料,以及到底要解決什麼問題,針對這一類問題我能解決哪些?比如訂酒店,今天我要訂酒店,我可能會說「我要訂萬豪酒店旁邊的快捷酒店」,如果抓關鍵詞的話,會以為我要訂萬豪酒店。再比如訂餐,我大概有七八個大人再加兩個小孩,七八個大人是七十八個人還是八個人?再比如說「幾點」?六、七點,不不不,改成八點好了。那麼到底是幾點?

在我們的認知中,希望未來每個人有自己的機器人,你的機器人能理解你,記得你,我跟手環或機器人說「幫我點個外賣吧,我肚子餓了」,它能記得我喜歡吃什麼、不喜歡吃什麼,而且它知道我昨天吃過什麼、前天吃過什麼,不要點重複的東西。每個企業都應該有點餐機器人,可以做智能客服的回答。未來我們還可以跟機器人交流,比如我跟手環說「幫我點個巨無霸吧」,它知道這是麥當勞的產品,會找到麥當勞的機器人,兩個機器人對話,幫我搞定。

奕欣:非常感謝翁嘉頎先生的發言。接下來有請神州泰岳大數據 VP 張瑞飛先生,張瑞飛先生具有十年以上大數據及人工智慧從業經驗,他會為我們帶來怎樣的技術分享呢?有請張瑞飛先生。

張瑞飛:我今天跟大家彙報一下神州泰岳做自然語言處理商業落地的考慮。講到商業落地,大家可能會講一個問題,就是我們要解決幾個矛盾,經過這兩年的市場訓練和這次大會的培訓,大家都知道人工智慧現在處於初級階段,尤其在認知科學領域。在初級階段要落地,就意味著你要管客戶收錢,我想這是第一個矛盾。第二個矛盾是我們要解決成本和實際達成成效之間的平衡,理論上講,只要你投入足夠多的成本,人工智慧的效果就會更好一些,但是它又有最佳值,我們要找到最佳值在哪兒。第三是我們要解決在演算法工程和基礎演算法之間的選擇,我們在演算法工程中要解決的問題和我們在基礎演算法中進行的優化研究結合起來。

以我們在公共安全領域的例子跟大家講一下,我想在座各位都非常同意這一點,就是你在解決演算法、數據和算力這三個數據時,肯定先搞定數據,包括騰訊的鐘黎先生和剛才各位嘉賓所說的,我們做內容之前要做預處理,先從接警事件開始,標註橫行 400 萬份樣本,在此基礎上做領域專業詞向量,領域專業詞向量可以預提取和計算體征,我們可以把公安的文本覆蓋率達到 99% 的泛化能力,這是第一步。

第二步,做了這個內容還不夠,這個內容只做了工程化的基礎,它是所有演算法的基礎和基石,使得演算法可以適用於這個領域,但它遠遠不夠,比如地址的問題,經過地址抽取,在地址之上進行更多的二次加工,我們搜集整理了大概 110 個維度下 190 萬個地址,進行地址歸因化、地址地配、跟公安的融合等等,這是工程化的第二步,也就是怎樣在成本成效中有所取捨。除了地址以外,還有作案手段、嫌疑人、公司名稱、人名等,這方面都需要二次加工。

第三,我們要考慮遷移學習的內容,以前訓練不同地域的公安同一警種內容時,每個案例要提供 5000 個樣本,通過遷移學習迭代,可以不斷減少樣本數量,從 5000 個減少到 100 個樣本進行模型工程泛化工作,最後我相信這個數量會降到十位數或個位數。

有了這些還不夠,我們可以用深度學習網路構造雙向 LSTM 管,配合 CRF 進行要素提取或語義結構提取訓練。但還是不夠,它的難度在於我們怎麼把一些演算法做優化和改進,其中一個可以考慮的方向就是把人類已有的知識結構和語言結構和深入學習進行融合,通過融合,能有 5%-15% 的準確率提升,這一步很關鍵,這一步決定了你的演算法在落地時是可用的還是不可用的。

這裡舉了一個例子,但遠遠不限於這個例子,我們講融合時通常有兩種方法,一種方法是在演算法工程上融合,這裡舉的是演算法工程上融合的例子,我們把概念單元、把 3192 個句類、語境單元和記憶標好,實現有限和無限之間的哲學關係,概念是無限的,但概念單元是有限的,語句是無限的,但句類是有限的,語境是無限的,但語境單元是有限的。我們把已有的結構化知識或者圖的知識結構,就是用人腦可以分析的知識結構直接融入到神經網路中,我們在演算法中把它適配和協調起來,這樣演算法落地時才准,準是你能使用的非常高的影響力,它也是能要到錢的基礎。

有了這些還不夠,我們還需要結合大數據技術、圖譜技術、流程技術,但我要提醒大家的是不是有了一個工程團隊就結合了大數據,我們需要看做大數據的什麼、做人工智慧的什麼、做應用的什麼,把它結合起來。

我們跟中文信息學會進行合作,也跟北京師範大學開源了一套詞的預向量集,一共 50G 的文本量,是目前全球最全的文本預向量集。我們也跟中文信息協會建立了生態合作聯盟,我們需要合作,需要在合作過程中共同成長,我們也發布了中文深度語義平台,希望大家聯合起來,把 NLP 的落地真正走向產業化和實用化的階段。謝謝各位!

奕欣:感謝張瑞飛先生的演講。接下來有請薄言 RSVP.ai 聯合創始人 CTO 熊琨,熊琨先生畢業於清華大學計算機系,後就讀於滑鐵盧大學,他十多年來專註於深度語義解析和人機對話研究。

熊琨:我們公司叫薄言,英文叫 RSVP.ai,RSVP 是法文縮寫,表達的含義是希望得到你的回復,我們公司的初衷就是希望讓機器了解語言,自動幫人做一些關於語言的事情。

我們是一家發展機器學習技術,提供自然語言深度解析服務的公司,為 B 端、為合作企業進行加速。公司 2013 年在加拿大成立,另外一位聯合創始人是加拿大滑鐵盧的教授,也是皇家科學院院士,他 2012 年獲得過加拿大科學最高獎 KillamPrize,這個獎大家可能不熟悉。但是大家所熟知的 Geffory Hinton 在 2014 年獲得該獎,李明老師是在 2012 年。薄言 RSVP 得到了清華大學計算機系的支持,感謝朱曉燕教授和系主任孫茂松教授,早期我們的人才儲備也是通過清華和滑鐵盧的交換項目。

我們早期一直做英文研究,近年轉入中國市場,團隊目前主要在加拿大和中國,李老師畢業於康奈爾大學,其他團隊成員主要是來自清華、滑鐵盧大學,北京大學,華中科大以及谷歌。

簡單介紹一下我們現在做的事情,一是任務型 NLU,現在提供的服務也是這樣的服務,這是在智能家庭環境下做電影查詢解析,右圖是在小米智能電視上做的例子。

這一頁 PPT 本來是想說更多,我們公司的研究員會花很多精力在基礎深度學習方面的研究,主要在於端到端怎麼引入更多的知識,解析時我們希望深度學習網路不僅僅給出概率分布,還希望給出圖狀結構,能夠解決文法表達的問題,大家都知道,上下文無關文法在計算機計算中還有很多是理論上難以計算的問題,所以我們需要在編譯演算法上下工夫,目前已經有了一些進展,還在繼續研究中。我們也花了很多工夫,讓通用模型更大語料幫助我們在垂直領域得到更好的效果,任務型自然語言解析基本上是做這個事情。

對於對話型的理解其實是更難的問題,因為人們在對話中往往會省略一些大家知道的信息或者以前說過的信息,我們現在用深入學習端到端網路做這件事情,很多時候可以很容易的跟一些傳統 NLU 系統做對接,這些 NLU 單元不用太關註上下文的問題,比如這個例子中,說的主體是九寨溝以及人多不多的問題,我們可以對單句進行補全。這個端到端的網路設計了一種類似於機器閱讀理解的結構,論文剛剛投出去。

薄言也可以作古詩,我們的機器作詩沒有像孫老師從文學角度出發,主要是在考慮各類生成網路在中文上的生成效果,例如:GAN,RNN 和 VAE,論文發表在 IJCAI 2018, 這個網路可以用更少的參數和知識讓它對一些主題進行生成,並且也可以做藏頭、七言律詩、五言律詩,我們有一個類似於「九歌」的系統叫「暖暖」,大家也可以在微信上關注薄言豆豆,體驗作詩的效果。

我們現在的使命還是極大程度的降低人工標註,不光模型演算法,包括交互界面上,現在的自然語言平台可以讓用戶定義 NLU,公司未來也會花超過一半的精力繼續放在基礎機器理解和自然語言框架上,未來的目標是想構建多層理解的構架模型。

感謝大家,期待接下來的討論。

奕欣:今天大家將會聊一來自然語言處理商業應用上的各種議題,近年來產業界和學術界的交融越來越頻繁,希望能跨越雙方的溝通橋樑。

2018 年對於自然語言處理技術來說是產生巨大飛躍的一年,比如說阿里、微軟、哈工大、訊飛聯合實驗室相繼突破了人類水平,NLP 技術發展觸及新里程碑,人們對此有新的期待和信心。在第一天主會場張鈸院士的報告中,張鈸院士在演講中展示了一張表,橫軸代表領域的寬窄,從單領域、多領域到開放領域,縱軸表示信息的確定性和完全性,從確定到不確定領域,從完全到不完全信息,其中自然語言處理正位於最難的位置。接下來有請四位圓桌嘉賓跟我們一起暢聊,自然語言處理到底有哪些落地的技術難點和應用難點,有請各位圓桌嘉賓上台。

第一個問題,現在語音識別、人臉識別研究領域相對落地比較快,NLP 目前在落地上技術還是不夠完善,請問各位嘉賓,目前在技術上還有哪些鴻溝需要跨越?

張文斌:NLP 技術目前處於相對不太成熟的階段,也是因為它的任務非常多且複雜。分詞相對比較成熟,測試語料上準確率可以做到 97% 以上,就算分詞這麼成熟的技術,落到特定行業,面對一些新詞,效果還是不足夠理想,還需要花很多精力去做針對特定領域去做優化。從分詞往上,很多基礎的 NLP 任務都有很大的優化空間,所以這也是雲孚科技目前發力的方向,先把 NLP 基礎技術平台做好做紮實,再在上面搭建上層的應用

翁嘉頎:目前 NLP 在短文本、短句 15 個字以內,意圖理解、意思理解可能沒有什麼問題,長文本目前還不太行,舉個例子,我們在電商遇到的「昨天買了一支口紅,我媽媽看了也很喜歡這個顏色,既然還沒有發貨,能不能多買一支」?四個子句,這句話的意圖到底是什麼?中間有問號、有逗號,可能連人都不一定搞得懂,更何況機器。這句話的意思其實是「我要修改訂單」,這一塊的攻克是很長遠的目標。

張瑞飛:自然語言處理屬於認知智能範疇,所以自然語言處理的終極目標是理解人類的思維和想法,在這個過程中,我們需要拿捏尺度,這個尺度即把機器智能和人類智慧融合在一起,而不是用機器智能取代人類智慧。

在領域分析,我們現在比較關注的是怎麼把視覺中已經取得的技術,比如 DCN 技術應用在文本中。給大家舉一個直觀的例子,現在網上的輿論控制,比如涉黃、涉毒、涉恐信息用人眼能馬上看起來,但用機器識別沒有終極解,它總能找出一些異常來,這方面有一些思路和演算法上的改進,可以處理問題。

奕欣:視覺和自然語言處理的結合也是現在比較火的一塊。

熊琨:我們在商業化上還是比較初步的,更多的還是從研究的角度考慮這件事情,因為我們已經開始做商業化,比較困難,一方面是比較通用的問題,目前自然語言處理的問題是如果我把演算法做得特別深,往往有普適性的問題,如果做平台,往往做深入就會有困難,這是第一點。第二點,拿語義相似度短文本來講,我們遇到的商業化問題,比如最早能在對話或問答領域達到比較好的效果,接下來電商領域或法律領域的數據集上來,它們的訓練語量沒有那麼多,但又有各自領域自己的知識和特點,這個時候通用的數據集怎麼達到更好的效果?這是我們想克服的挑戰。第三點是在商業化中,自然語言處理跟 CV 領域還有一個差別,大家很多時候是用大量的 LSTM、Model 等,哪怕 Attention 才是你真正需要的東西,但實際上它還是時序模型,如果我把它放到線上系統,時延是有問題的,而且成本非常高,哪怕谷歌做郵件回復,他們自己都認為用 LSTM 是比較貴的,所以自然語言處理商業化也要考慮成本問題。

奕欣:熊老師的回答引出了第二個問題,結合各位公司的實際業務,目前有哪些需要重點解決的問題?

熊琨:我們現在比較關注的問題,也是相對比較簡單的問題,即短文本語義相似度,剛才騰訊的研究員(鍾黎)也講到了,首先在學術領域會做很多研究,關於 Q 和 Q 的相似度,也有 Q 和 A 的相似度,其實很多時候是通用的。其他客服領域遇到的數據,比如手機、電腦領域,我買一部華為手機,發現屏幕不亮了,客服人員經常給出的正確答案是「你重啟一下」,實際上在語義上這兩句話不是完全相等的。此外,我們在方法上還有一個維度的區別,現在很多服務是基於搜索的技術,現在業內也有一些新的評價方式,即在平行文本做評價,兩種評價都達到很好的效果,但是如果做交叉,總會有損失,這個問題對我們來講是比較棘手的問題。

張瑞飛:我們現在的核心要解決標註好的數據,用戶使用過程中反饋的數據,因為做人工智慧脫離不了對業務的理解,比如公安行業,不能只是做信息化的人,沒有業務反饋,這個過程中,人工智慧想在領域化內取得有效、出色的應用,就要把這個問題首先解決掉,這是我們的核心問題。其他問題還有很多,比如跟其他系統的關聯,比如怎麼做好更好的搜索引擎,怎麼做出更快的圖譜來,怎麼把百億級計算壓縮到毫秒級,這些都有要求,但第一要解決的就是數據問題。

奕欣:剛剛翁嘉頎先生在演講中也提到了機器人的內容,能否結合這一塊跟我們分享一下?

翁嘉頎如何做好對話控制,如何限制用戶講話方式,這真的是一個技巧,因為用戶亂講一通,你是沒有辦法理解的。舉個例子,剛剛講到法律,我們做過政務機器人,其中有離婚場景,您要離婚?有沒有共同財產?這句話表面上看起來就是 YES or NO,但用戶不是這樣回答的,用戶會說十年前我們共同買了一套房子,本來是一個人名下,後來轉到兩個人名下。類似這樣的問題,客戶亂回答,機器人根本沒有辦理繼續下去,如何做好對話控制是目前可以落地的一個方向。

張文斌:我們目前更關注稍微底層一些的,包括信息抽取、知識圖譜相關的東西,我們有很多非結構化文本存在,怎麼在這上面把他們想要的結構化信息抽取出來,抽取完再構建這個行業的知識圖譜。做的過程中有各行各業的需求過來,如果以傳統的機器學習或人工智慧的方法做,需要大量的標註語料,這個成本往往非常高,怎麼樣在沒有標註語料或很少的標註語料的情況下就能把這一塊做起來?我們也積累了一些經驗,一般可以先用已有的通用系統結合基於規則的方法先做一版系統出來,這樣可以先跑一個初步結果,從中挑一部分比較嚴重的 badcase 出來,人工標註語料,再重新訓練模型,如此反覆迭代。最終可以花比較小的人力標註成本把系統遷移到其他領域。當然,剛才說的這個過程還比較理想,怎麼樣用儘可能少的標註語料,可以快速遷移領域?這是我們實際工作中碰到的一個非常實際的問題。

奕欣:非常感謝幾位老師的分享,既然今天是產學結合的會議,我也想請教一下各位老師,目前深度學習對 NLP 的影響還是挺大的,像雷鋒網參加 ACL 這樣的學術會議,能感覺到每篇論文都有接觸深度學習的方面,請問學術界的前沿研究對於企業的產業化落地能得到哪些借鑒和思考?

翁嘉頎:我們目前的實驗結果是沒有一個單一的演算法能夠解決好問題,不管是用深度學習的哪一種演算法,或者是哪一個規則,或者向量,或者模板的方式,比較有辦法做的是拿各式各樣新的東西,目前基本上所有 Paper 上提到的演算法我們都試過,可能要看四、五十篇 Paper,從裡面融合出一個方法,所以每一個演算法,每一個 Paper 都有它可取的地方,比如其中四個演算法告訴我他要退貨,一個演算法告訴我他要換貨,我會用投票的方式,比較有機會真正落地解決問題,因為演算法有弱點,用多個演算法去做,能互相彌補缺陷。

張瑞飛:首先我們不能評價哪個演算法好與壞,因為演算法要看適用場地,適用你的應用場景的方法就是最好的方法。目前的深度學習演算法是向人腦致敬的過程,典型的有 CNN,這個過程中我們可以對這個演算法做適度優化,優化方向是把人類取得的知識結構跟演算法做有機融合,這是我們希望專註下去的方向。

張文斌:我們在這一塊的經驗比較豐富,公司跟哈工大社會計算與信息檢索中心中心是非常緊密的合夥關係,我們的主要工作就是把學術界的 NLP 研究成果真正落地產業化。在這個過程中,我們的經驗體會是這樣的,學術界的訴求跟工業界還是不一樣,學術界追求理論上、模型上的創新,如果有重複了就需要構思下一個新的模型。而創業公司是把他們探索出來的模型拿過來試,我們的核心是效果導向。基於這一思路,我們內部也搭建了一套統一的基準平台,先給演算法和數據分別定義好統一的介面,然後就能很方便地替換成演算法或模型以及數據進行效果測試,這樣就可以快速嘗試新的演算法模型,到底在特定任務上效果怎麼樣,純粹根據效果來挑選最終適合這個任務的整體模型方案。其次,真正用這些演算法做預測時,我們還得考慮它的性能,在正式場合,包括它需要的硬體條件是否符合業務需求,這也是我們落地時要考慮的因素,有的演算法雖然非常高大上,可能高出 0.1 或 0.2 個點,但它的速度慢了很多,對硬體要求特別高,我們就會有所取捨,採用更加實用的演算法。

熊琨:非常同意文斌說的第一點,現在很多論文充斥著大量深度學習的文章,但都是基於有限的假設,主要是會議會發布一些黃金數據集,但這些數據集往往跟我們面臨的問題是不一樣的,所以非常重要的是公司內部要有自己的測試集和標準,對於新的方法能夠快速適應和嘗試。現在對於「試」這件事情是非常重要的,原來我們要求研究人員一周之內把一篇 Paper 寫出來並且測試,現在可能縮短到 2-3 天了。我的看法是不見得有最好的演算法,主要是最合適的,對我來講,很多時候是多層解決方案,甚至還要考慮關鍵詞的傳統方法結合自然語言演算法可能效果是比較好的。公司內部也會分開,剛才說的這一部分主要是結果導向,另一方面我們的研究團隊,也在探索一些更新的網路以及學習方式,思考機器推理,或者其他類人腦活動的機器學習方式。

奕欣:非常感謝熊琨老師的分享。接下來是最後一個問題,我發現各位嘉賓的公司名字都起得非常有意思,比如薄言、竹間、神州泰岳、雲孚科技,它們想必都包含著創始人對於自然語言處理的美好期許,最後請各位嘉賓結合自己公司的名字展望一下自然語言處理技術的未來。

張瑞飛:我們希望我們在中文自然語言處理上做出獨特性,自成一派,做出為國家爭光的東西,為自然語言處理落地。神州泰岳是在神州大地上的一個企業,我們也希望借著「神州泰岳」這個名字的吉言把這一塊工作做好。

奕欣:也希望神州泰岳越辦越好,成為中國領先的 NLP 企業。接下來請雲孚科技的張文斌先生來分享下。

張文斌:這是一個考驗創始人自然語言處理能力的題目,「雲孚科技」是我自己起的,雲是現在比較火的概念,我們的初衷是自然語言處理能力的門檻非常高,尤其是對於很多中小企業或傳統企業,他沒有很好的 NLP 研發團隊,我們希望把我們頂級的 NLP 技術能力封裝好,最終以雲的形式普惠給所有有需求的企業。「孚」是信譽的意思,做人做事一定要靠譜,講信譽,我們做的產品一定要可靠,給客戶帶來實際價值,所以叫雲孚科技。

奕欣:是一個既仰望星空又腳踏實地的名字,接下來請熊老師展望一下。

熊琨:剛才我講了英文,中文可以再說一點,薄言這個名字起得比較草率,團隊幾個人覺得需要有中文的名字,因為 RSVP 實在太難讀了,「薄言」來自於《詩經》,采采芣苡,薄言采之,「薄言」在這句話中沒有具體的含義,是一個語氣詞,我們想表達的含義是以謙遜的態度處理語言,我們認為自然語言領域還在冬天之內,不管是技術落地還是商業化需求都沒有真的出現,所以我們需要以謙遜、負責任的態度做科研,需要用更長的時間、更大的努力,特別是在加拿大這個苦寒的地方渡過寒冷的冬天,未來能積累出更強的技術,能讓機器更懂我們的語言。

奕欣:最後有請竹間智能的翁嘉頎先生。

翁嘉頎:我們公司的英文名是「Emotibot」,所以公司一成立就是奔著情感機器去的,所以我們不只做文本,連語音、圖像一起做,花了大量的人力,所有數據都是自己標註,光人臉就標註了 200 多萬張照片,每張照片是三個人標,三個人都說是高興,就是高興,三個人都說是悲傷,就是悲傷,不然就要找心理學家做最後判斷。文本更不用說了,不知道花了多少時間處理這些數據,我們認為情感計算會是未來的一個潮流,希望大家一起努力,把自然語言慢慢往前推,因為這一塊目前不像語音和圖像發展那麼快速。

奕欣:非常感謝各位圓桌嘉賓在今天的 NLP 專場為我們帶來的精彩分享,也非常感謝大家來到這裡。

主持人:非常感謝以上幾位嘉賓的精彩分享,本屆大會延續了往屆大會的盛況,匯聚行業精英大咖,圍繞行業前沿話題,探討未來發展方向。

最後,我謹代表活動主辦方對到場的各位來賓最衷心的感謝。謝謝你們!

更多 CCF - GAIR 大會實錄文章:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI科技評論 的精彩文章:

清華大學Thinker團隊在VLSI 2018發表兩款極低功耗AI晶元

TAG:AI科技評論 |