專訪 | 阿里iDST初敏博士和陳一寧博士:如何打破語音技術的落地怪圈
雷鋒網按:人工智慧技術大熱,一茬接一茬的AI創業公司蜂擁而起,得到資本和媒體的寵愛。單是根據去年4月份的統計數據 ,就有170家Chatbot公司燒掉40億美金。而「人工智慧」自帶黑科技光環的技術名詞,更是每隔幾個月都要在媒體頭條上「戰勝人類」一次。
今年3月初,Yann Lecun在Twitter上推薦了一篇評論文章,文章作者Bradford Cross表達了一個非常重要的觀點:機器學習即服務(MLaaS)在實踐中令人失望,而且AI公司往往陷入技術傲慢里而輕視了用戶需求和公司經濟學。
如果我們把2016年看做是AI在中國的初露鋒芒的「元年」,受到百般呵護和追捧,那麼到2017年,它就要面臨嚴酷的商業社會考驗了。因為歸根結底,技術的終極價值都要體現在實際應用里。如何讓AI技術有效落地、為商業社會創造真正的價值?圍繞這個問題,AI科技評論近日採訪了阿里iDST總監初敏博士(圖右)和iDST語音技術產品化團隊負責人陳一寧博士(圖左),剝析阿里雲在AI技術落地的過程里走過的坑和邁過的坎。
雷鋒網:阿里NASA計劃發布之後,iDST與NASA之間的關係是怎樣的?初敏:NASA是一個大的計劃,我覺得是想把有難度的事情更集中在一起做好,而不是像以前一樣分散在各個業務里。就我所在的團隊而言,應該沒有太大的影響。iDST還是集中解決自然語言、計算機視覺里比較難的問題。
雷鋒網:你們為企業提供語音技術服務的形式是什麼?陳一寧:我們當然提供API、SDK這樣底層的基礎接入。也提供解決方案,但解決方案也分很多種,有的解決方案都細化到說函數都定義好了,就剩實現與否。我們的解決方案會更往上一點,就是給你一個大體的框架,至於最後軟體設計成什麼樣子、最後的展現形態,我們也不需要特別地去掌控。所以我們還是主要跟合作夥伴一起完成一個項目,不是特別端到端大規模推廣的一種模式。比如奧點雲這個例子,我們會告訴對方搭建的整體框圖是什麼、如何去搭建,那麼再細化的工作可能就不是由我們來做了。
雷鋒網:阿里的語音技術目前在哪些垂直領域有比較成熟的應用?陳一寧:這次我們發布的幾個戰略合作項目都是比較成熟的。第一個就是與昆石一起發布的質檢雲系統。實際上它是在做線路的質檢,主要因為現在詐騙比較多,我們也是希望能夠給社會做一些貢獻。這個質檢系統能夠檢測出一些常見的詐騙套路。經營者其實都是對於詐騙深惡痛絕的,但是又很難發現,靠人工來監聽,成本實在是太高了。那麼通過語音識別的方式,把語音變成文字以後,詐騙的套路就比較容易被檢測出來。
第二個就是在直播里生成字幕。實時生成字幕在商用直播里正在逐步變成流行的功能了。他們的需求就是,有時候用戶不能聽、只能看,這個時候需要字幕;還有的比如會議直播,開完之後希望有一個速記稿出來,那就沒有必要專門請一個速記員。所以我們跟奧點雲合作的就是這類。
第三個就是泛質檢類的服務。這一塊我們有很多客戶接入,舉個例子,比如說像有一個做短租的合作夥伴,他們的商業模式就是充當一個中介的角色,但是如果中間溝通過程中,兩頭的用戶之間自己打電話或微信私聊,那麼這個商業模式就被打破了。所以,對於中介類的公司來說,最敏感的就是不能讓兩邊的用戶互留聯繫方式。但這件事實際上是很難判斷的,那他們用了我們的服務以後,就可以幫助他們監聽,來進行管理。
第四個就是我們的法庭速記。這已經有了一套完整的可複製的模式,自動化生成審判書,甚至現場狀況好的時候,直接列印出來簽字就可以了。
雷鋒網:目前語音市場還是處在被教育的階段嗎?還是說現在已經有很多企業主動跑過來找你們了?陳一寧:我們現在的情況是,主動找過來的企業,已經應接不暇了。那市場是不是還要被教育,我覺得也是的,跟一個大爆發市場相比,現在還是一個先期的狀態。
初敏:我也覺的目前還是處在一個市場被教育的階段,這不是一個所有人都去搶的well-developed的市場。
比如說像奧點雲這樣的一個項目,過去是沒有的,在過去這個市場是不存在的。這個市場現在之所以會存在,是因為我們雲棲大會上展示了這樣的技術和案例,很多人看見了,就覺得自己也想要。我們當時在雲棲大會的直播上出了字幕,所以很多做視頻的就會說,我也想要這個,所以這才推動奧點雲這個項目誕生。就生成字幕這個技術而言, 其實字幕只是一種外在的表現形式,裡面更重要的是,語音轉成文字之後,就擁有一種新的數據形態了,那你根據這些數據,可以對視頻做檢索,對視頻內容進行分析等等,後續可以做很多事情。
再比如我們去法院里做速記,這也不是一個存量市場,一家法院用了之後,其他法院覺得挺好的,才開始有這個市場。所以我覺的,是我們在探索新的市場,但是具體到要把某一個領域真正做的好,不是單單靠我們這邊把一套完整的東西做完,也要靠合作夥伴的精耕細作。
我們現在很重要的一個方向,就是把在新領域探索的合作項目經驗和模式固化下來,這樣我們在初期的投入才是有價值的。
雷鋒網:現在你們的語音技術有一套固化下來的應用模式嗎?陳一寧:我理解是每一個行業是不太一樣的。比如說像我們現在這種司法的領域,其中涉及到個整個數字法庭怎麼布置、接入多少路的數據、數據更新、麥克風怎麼擺放,什麼樣的設備進行回聲消除、是否要有音量顯示......等等整個一套流程,這就是這個領域特有的模式。
初敏:對。其實是說從某種角度來說,就是要把它變成標準化的流程。除了語音識別技術本身,同時可能要提供一些最基礎的一些工具,比如說麥克風音量的監測(音量太大或太小都是不行的)。因為在初期,我們的合作夥伴沒有相關經驗,所以我們有時候就是要多往前走一步,幫他們一下。比如有時候兩個麥克風特別近,或者現場一個喇叭就放在麥克風后面,這都是有問題的,那我們團隊就要現場去指導部署。合作夥伴能搞定兩個了,那之後複製一百個也沒問題了,但是頭兩個我們都會派人去幫它一起看。
雷鋒網:語音技術應用於具體的業務場景過程中,你們面臨了哪些阻礙?
初敏:把一個看似很高大上的技術成功應用,真的是有太多的細節問題要去解決。就像我們雲棲大會現場生成字幕,其實頭兩場雲棲大會,我們最害怕的是接線,線路接不對,就會有巨大的雜訊在裡面,那就太嚇人了。我記得有一次,就突然有電雜訊,最後還是請教音頻老師,只要把其中兩個線路插在一個電線板上,問題就解決了,但我們之前並不知道。
所以,我們這一年時間做下來,切身體會到,語音技術落地真的不是閉著眼睛就能做到的。一般技術提供商,會想當然地認為,我們有API和SDK,你接入就好了嘛,其實遠不是這麼回事兒(笑)。這個過程中,就是要把工作做細,積累成一個可以複製的模式。
陳一寧:之前我們擔心的很多問題,包括麥克風的選型、線路搭建、有沒有引入雜訊......這樣的一些落地的細節中都會有很多問題會產生。
其實這場雲棲大會的字幕,已經徹底是由供應商來做全部的事情了。以前的話,是我們團隊自己來做,所以就一場一場慢慢來,到今年雲棲大會的字幕、網上直播的字幕,已經都完全是由供應商來完成了,我們基本上就沒有參與了。
我們就怕技術是一個Demo,就是我能操作,但換一個人用就不行了。所以我們初期跟合作夥伴磨合,做好幾個具體項目後,後續讓他們自己完全掌控,這就是我們特別希望達到的一個狀態。
雷鋒網:陳一寧老師,您之前在演講中提到強定製化是阿里的核心競爭力,能具體講講嗎?陳一寧:語音技術的實現跟領域的相關性很高,它不像輸入法,做出來一個,到哪裡都能用。其實很多時候,你在一個領域裡做好了技術,到其它場景就不能用了。通用的語音技術是無法滿足客戶特定需求的,那麼我們會幫助他們去定製專屬於自己的語音引擎。比如我們的ET智能語音系統正在逐漸對外開放,最簡單有熱詞的設置(這個已經開放了),更進一步的還可以接入自己的領域數據,這一點我們內部業務團隊已經在成熟地使用了,之後也會推廣給外部合作夥伴。
醫療領域和電商領域,肯定是不相關的,在知識上講,各自都有很多的辭彙。客戶在自己的領域都具有很多的知識和信息,那麼客戶把包含特色信息的文本輸入進來,由我們的機器來學習這些文本,識別率就會得到提升。
阿里對於客戶數據的保護是非常嚴格的,有非常高等級的要求。除了各種ISO認證,內部還有很多嚴格的規定,是不能看用戶數據的。一般來說,各領域的知識,也通常不是敏感的信息。但如果是某些行業的數據敏感度高,那麼我們也有專有雲來做相關的事情。
雷鋒網:初敏老師,您之前在演講中談到,對AI公司來說迭代的速度是非常重要的,為什麼?初敏:其實一個學習的過程,簡單來講就是給一堆數據,然後從中學個模型出來。但是如果從一個場景數據換到另一個場景數據,你能夠多快學出來?
今天所有的機器學習里,如果做的規模比較大,訓練過程是很慢的,有時幾天、幾星期都弄不好。通常小一點的企業,基本上都是按「月」來迭代的,都兩個月、三個月才完成一次完整的調試。幾十萬和幾千萬的樣本規模是很不一樣的。典型的語音識別,如果是2千個小時的數據,只用一塊卡,可能需要好幾天才能迭代一次,那如果是2萬個小時的數據,基本上就不可行了。所以,很多的時候,底層的技術保障也是必須的。
我們現在要花很多時間做多機多卡,其實訓練模型在整個過程中間也只是非常小的一環,在整個鏈條里只佔三分之一的時間,剩下三分之二的時間就是在倒騰數據。比如我們今天,把數據存在某個地方,然後把它拿出來提升feature,然後還要做一輪預處理(例如語音識別需要做傳統的HMM),這一套前期的工作可能比在GPU上進行深度學習訓練花費的時間還要多。實際上,迭代速度決定了你的進步速度,是讓A和B真正產生差別的地方。真正到大規模訓練和應用的時候,底層的基礎設施能力是非常非常重要的。所以今天高校研究就面臨很大的挑戰,就是因為當面臨大規模數據的時候,就會做不了,所以通常高校老師會做演算法本身的研究。
那我們現在希望把這個速度做到按「天」迭代。這當中就是主要是基於阿里雲的雲計算平台的優勢。我們從數據的存儲、處理,到不同階段在CPU、GPU上的打通,並發性比較好,所以才會比較快。
雷鋒網:AI行業里有一個很經典的問題,就是現在大部分AI公司都是拿著鎚子找釘子。你們如何解決找「釘子」(用戶需求)的問題?初敏:阿里整個的氛圍就是比較務實的。我覺AI技術在阿里比較容易成功落地,是因為我們比較幸運地可以藉助很多外力。首先就是有非常多的業務場景,這個是別人很難得到的,往往得到其中一個就很難,而我們手裡有8至10個非常好的業務場景。你的技術只有在真正用的時候才能打磨,最終做到真正好用。所以這就是我們覺得很興奮的地方,就像一寧昨天晚上工作到2點才休息,其實我們團隊很多人真的每天都是這麼拼的。因為你有很多的業務場景,只要你有能力,你都可以去做。
我們不是到處要找「釘子」,而是「釘子」堆上來了,就看你搞不搞的定。所以我們始終處在一個超級興奮的過程中,恨不得每天多做點事兒(笑)。再有一個就是,阿里雲這些非常好的基礎設施,使得我們在起步的時候,門檻就低很多。
所以雖然我們只有幾十個人,但我們做了很多事情。當然,這些事情也並不全是我們自己做的,我們在內部有很多合作夥伴,特別是工程落地方面,內部業務都是合作夥伴做的。所以我覺的特別幸運,就是你有場景、有數據、有很好的計算平台,還有特別多的合作夥伴一起做事情,我覺得這是我們特別有優勢的地方。
雷鋒網:如何看待以亞馬遜Alexa為代表的語音助手,它們會成為取代手機的下一代的入口載體嗎?初敏:取代手機是不太可能。無論是什麼入口,最終的大目標是一致的:為了獲取網上或雲上的信息。有時候手機觸摸交互就很方便,那如果我在做飯,也許一個語音交互的冰箱就更合適。在不同的場景中,會用到不同的端。
我認為,未來並不是每一個家電設備都要具有接入語音的能力,一個場景里有一個主導設備(Hub)就可以了,可能是音響、Wifi設備或電視等等,並沒有太本質的區別。無非就是有沒有麥克風和揚聲器,有沒有攝像頭,最理想的狀態就是能跟別的設備都連在一起,那家居的數據聯通問題,就是我們IoT的團隊在做,在慢慢嘗試做一個接入體系。
那到底是哪類家居會成為它所在場景里的Hub,我覺的目前這個是不明確的,大家都在嘗試階段。
雷鋒網:2016年你們主要做了什麼工作?2017年主要的目標是什麼?陳一寧:2016年最主要的事情,就是我們從零開始,對外提供產品化的語音技術。這讓我們真正意識到,我們的技術確實能夠幫助到戶,這非常令人振奮。
未來一段時間,我們更多的是希望跟合作夥伴的業務結合,把已有的合作樣例變成成熟的解決方案,推廣給更多的客戶,這是我們今年著重關注的事情。
初敏:過去一段時間,我覺得我們跑的非常快。在別的企業裡頭,可能花了十年時間積攢的技術,我們2年就做出來了,技術本身的迭代非常快。
我們並不是在追求技術的「高大上」,而是希望把技術做好,最終能落地。那麼一寧的團隊沖在最前面,我們的團隊比較在後方一些。語音這個技術,到底能怎麼用,過去大家一想,就說「個人助理」。但今天我們看到了,遠遠不止這麼一個用途。我們所有的市場,都不是存量市場,都需要去開拓。
我們的團隊成員很多是做研究出身的,我們就有一個特別大的夢想,就是把這個技術做到真正可以使用。過去這一年,真的是讓我們看到這個夢想實現的希望,這條路越開越寬,這是我覺得特別興奮的。
※模擬人類視網膜 人臉識別技術研究的重大進步
※IBM 推出企業級區塊鏈服務「IBM Blockchain」
※車聯網、換電站、分時租賃,力帆在新能源汽車領域的野心有多大?
※微信拓展歐美市場:吸引奢侈品牌,推廣支付服務
※螞蟻金服開放 VR Pay 剁手更簡單
TAG:雷鋒網 |
※微軟全球技術院士黃學東:「超人」語音識別模型只是優秀產品的其中一環—專訪
※專訪Sonos王漢華:目前沒有別的交互方式勝過語音
※騰訊AI Lab副主任俞棟:語音識別研究的四大前沿方向
※福利預告 | 聲智CTO馮大航直播答疑:遠場語音交互核心技術
※訊飛語音、蘋果Siri、微軟小娜大亂斗,誰家語音識別更牛?
※搜狗研究員:基於LSTM-RNN的語音聲學建模技術
※蘋果發布語音翻譯編輯專利及柔性OLED、液態金屬專利;Band-Aid血糖偵測技術;Pi無線充電
※【設計博聞】搭載微軟Cortana語音助手的智能溫控器
※海知智能謝殿俠:中國版Echo音箱是「橘生淮北」,電視才是智能語音助手落地的未來
※聲智科技創始人陳孝良:人機語音交互的技術趨勢與商業機遇 | CCF-GAIR 2017
※紅人專訪IS語音雨鑫:擁有「十八般武藝」的全能「才女」
※谷歌和迪士尼搞事情!語音助手竟然給《美女與野獸》打廣告?
※龍騎士帕拉丁二覺 遊戲內置語音系統!
※無畏流言,三星高智慧Bixby語音助手才是S8的伶牙利嘴
※卓偉曝光小g娜語音 吳亦凡私下驚人八卦涉及前EXO隊友是真的嗎?
※SpeXial人氣唱將馬振桓、易柏辰做客愛音斯坦FM 並首次與粉絲語音互動
※語音識別新突破:微軟AI小勝人類專家
※亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什麼角色? | 深度
※智能語音交互:阿里的研究和實踐