小度戰平人類最強大腦後,我們和吳恩達聊了聊
繼上周五百度的小度機器人在《最強大腦》節目中的跨年齡人臉識別任務中擊敗了人類頂級選手後,周五晚上,小度再次在聲紋識別任務上迎戰了人類最強大腦,並最終以 1:1 的成績和人類打成了平手。節目之後,機器之心對百度首席科學家吳恩達進行了獨家專訪,請他談論了小度在這場比賽中所用到的技術、百度的人工智慧研究和團隊以及他對中國和世界人工智慧研究的思考。
作為機器之心新欄目 AI Talk 的一部分,我們對這次視頻專訪的內容進行了剪輯,完整採訪可見下面文字整理版本。
關於小度和聲音/語音技術
機器之心:簡單介紹一下,小度在本期節目中使用到的識別技術及其原理?
吳恩達:在比賽中,小度使用了 2 種前沿的聲紋識別演算法,為了識別出某個人,會把兩種演算法的結果結合在一起。
其中一種方法是基於卷積神經網路,這是一種端對端的方式。卷積網路把輸入切成聲音片段,然後嘗試識別這些片段是不是來自同一個人。這個神經網路是在 2 萬多人的大約 5000 多小時的音頻數據上訓練出來的。這是一個很大的音頻數據集,它使得神經網路變得相當準確。
我們的第二個系統也有神經網路,但結構不同。第二個系統採用聲音片段作為輸入,神經網路輸出 5000 維表徵語音,並基於此進行統計建模。通過統計建模後的結果,抽離出說話人相關的信息,選擇出 500 個特徵來表徵說話人的屬性,而不是說話的內容。隨後,使用這 500 個特徵匹配兩個說話人,並判斷出是否是同一個說話人。
最終,我們用這兩個神經網路讓它們投票,從而做出最終決策。
機器之心:看起來語音識別要比語義識別更簡單一些,你認為什麼時候可以實現人類水平的機器語義識別,從而讓人類可以和機器順暢地交流?
吳恩達:讓計算機以人類的水平來完全理解自然語言,這還需要很長的時間,可能需要幾年,也可能是幾十年,我們難以確定。但我們可以預見在一些非常垂直的應用領域,比如詢問天氣、叫外賣、拿快遞,或者推送今天的新聞這樣的基礎問題。這些方向非常的垂直,我們看到了自然語言處理在這些方向上的快速發展。以百度的度秘為例,你已經能與這個機器人進行交流,它可以給你合理的答案。在垂直領域它可以做得很好,研究人員有時間考慮到所有的可能性。
我認同你所說的語音識別在過去兩年已經取得了巨大的發展。事實上,語音識別如今很準確,使得更多用戶用它作為文本輸入。
幾個月前,斯坦福大學聯合百度與華盛頓大學做了一項研究,表明目前的手機端語音輸入要比鍵盤輸入快 3 倍還要多。事實上,過去 12 個月里,我們看到所有百度產品上的語音日使用量增加了一倍,也就是語音服務的使用增長了一倍。所以,那些想要更高效、更便利地使用手機的用戶更傾向於使用語音輸入。
機器之心:百度語音平台免費提供了一些 API,它能實現什麼功能?如何從中受益?
吳恩達:語音已經變成一個非常重要的人機交互方式,在百度大腦,我們正在努力實現越來越多的語音功能並幫助人們用上這種強大的能力。在我們的網站上,最受歡迎的語音功能是語音識別、TTS(尤其是情感 TTS)以及語音喚醒。我們的團隊在不斷努力將越來越多百度的最好語音技術放到網站上。我們知道,對於第三方公司來說,獲取這些技術是非常有用的,但也還需要知道如何有效地使用這些技術。所以百度大腦做的另一件事情是創造能夠幫助第三方組織、開發者和公司了解如何最有效地在他們的產品中使用這些技術的材料。所以我們也正在將越來越多這些訓練材料放到我們的面向公眾的網站上。
機器之心:百度是如何提升語音輸入法的識別精度的?其中最困難的部分是什麼?
吳恩達:你知道,機器學習系統得到最好表現的一種最可靠的方式是在大量的數據上訓練大型模型。如今百度的語音識別系統是建立在 5 萬小時的數據上的,這是一個超過 5 年的音頻數據。此外,我們在超級計算機上訓練模型,它給了我們非常大的計算能力,從而建立足夠大的神經網路吸收這些數據。
除此之外,我們面臨的一些挑戰是在缺少資源的語言和方言中。我們在嘗試讓百度語音識別系統覆蓋更多的方言。在有很小數據集的方言上,我們嘗試了在普通話上學到的東西,並將這些知識用到不同的方言上。所以,百度有很多積極性的研究是關於在沒有普通話那樣大量數據的情況下,研究在方言上做到最好的演算法。
另一個研究挑戰是如何讓語音識別在沒有很多數據的新領域、新應用場景中有好的表現。例如,在不同的語音應用場景,語音片段聽起來也各不相同,比如很多口語化的語音的識別問題。在這些小的新垂直應用中,我們沒有很多的數據。所以我們也在做大量的研究,想要搞清楚從現有收集到的 5 萬小時的數據中能學到什麼,然後專門應用到新的垂直領域與新應用中,這些領域中的音頻質量或說話方式與我們的訓練數據有很大不同。
你知道,語音識別有了極大的發展,在很多領域有很大的應用。但在語音上,仍有許多的研究需要完成。
機器之心:在 CES 2017 上,百度發布了 DuerOS,你也曾提到今年是對話機器元年,應該如何理解?
吳恩達:我認為我們進入了語音對話介面成為必要事物的計算新時代。20 年前,我們大部分使用台式計算機或筆記本的鍵盤。大約 10 年前,喬布斯發布了 iPhone,開啟了手觸屏幕與手機以及其他設備交互的時代。
我認為人機交流的下一個時代是語音交流介面,而且我認為這一趨勢如今剛好起飛。因為這一技術剛好到達了這樣一個點,你可以坐在家中與對話計算機進行交流,詢問航班以及其他信息,而且它們能了解你說的什麼,並為你提供有用的信息和服務。
所以,我對對話計算時代黎明的到來非常樂觀。事實上,我們在中國感受到的一件令人激動的事是我們看到了很多的創新,不同的團隊建立了不同的很有創意的硬體。比如,小魚在家、智能音箱、電視盒子等等。
有了 DuerOS,我們希望能幫助所有的這些硬體製造者將人工智慧、語音對話智能加入到硬體中,從而讓更多這樣的設備進入家庭。
機器之心:你認為語音識別技術未來將在哪些領域發揮最大作用?
吳恩達:我認為語音在 4 個類別中將會快速起飛。
第一個是手機。因為在智能手機上語音輸入要比鍵盤輸入更快,所以百度在手機的語音識別上增長迅速。
第二個是家居場景。我們看到了智能音響(smart speakers)的崛起,出了智能音響,我認為小魚在家、電視盒子這樣的設備也在增加。我們把這種坐在家的體驗叫做背靠式體驗(lean back experience),也就是你能背靠沙發發號施令,然後各種家居設備會了解你的需求並作出回應。
第三種是汽車場景。在你駕駛的時候,手放在方向盤上用說的方式與汽車交流,它就知道你想做什麼。所以我認為在這個場景中也會發展。
最後是可穿戴設備。大部分可穿戴設備沒有很大的界面,比如智能手錶等。所以我認為在這個垂直領域,語音會慢慢發展。
所以,我認為語音是讓你與機器交流如此高效的一個介面,它會在這些垂直領域有很快的發展。可能也有其他領域。
機器之心:您怎麼看語音識別技術的商業前景?
吳恩達:在手機百度、百度地圖、百度輸入法等許多百度的產品中,我們可以看到過去幾年中語音的使用變得越來越頻繁了,因為這對用戶來說是一個方便得多的文本輸入方式。所以有大量第三方硬體製造商、軟體開發商和開發者想使用語音來幫助他們的用戶與他們的應用或設備進行更加自然和方便的交流;百度大腦項目也是一樣,我們通過我們免費的語音識別 API 發布了我們的產品,讓第三方也能用上我們的技術。語音識別是最難、門檻最高的技術之一,在百度,我們有幸能夠使用足夠的資源開發出非常好的語音系統。所以我們希望能夠通過我們的技術來幫助許多開發者和企業組織,讓他們的用戶也能將語音作為一種輸入方式。
百度的人工智慧研究團隊
機器之心:百度人工智慧團隊的日常工作是怎樣的?是什麼創新機制在支撐團隊保持創造力?
吳恩達:現在正是從事人工智慧工作的好時候,你能看到有人將人工智慧比作是「新型電力(new electricity)」——就像一百年前電力變革了一個又一個的行業一樣。我認為人工智慧也將類似地給交通和通信等許多行業帶來變革。我們很幸運有這麼多出色的人才在百度工作,他們不僅在努力使用百度的數據和計算資源來提升這些技術,而且也在尋找新的語音識別和人臉識別等技術並將它們投入到可以真正幫助人們的新場景、新產品和新應用中。每天我到百度工作時,我都為我們有這些能夠幫助很多人的技術而感受振奮。
在這裡我想額外補充一點。我想對所有還在考慮自己的職業生涯的年輕人說一句,我知道當你很年輕的時候,有時候你無法確定該追求怎樣的事業。我認為我們現在正生活在一個人工智慧領域有無窮機會的時代,如果你還不確定你該做什麼,可以考慮加入我們來開發人工智慧、研究人工智慧,未來幾年這一領域將有非常大的機會。
機器之心:在將人工智慧研究成果產品化的過程中,百度人工智慧團隊是如何與其它業務部門協作的?
吳恩達:將最新的人工智慧投入到產品中通常需要多個不同職能的團隊的協同。比如說,將語音識別技術集成到手機百度應用中,實際上是有很好的語音識別技術的語音技術團隊和有很好的搜索技術的搜索團隊的合作成果;正是這種互相理解的合作才讓我們的手機百度具備了出色的語音輸入能力。再舉另一個例子,今天在進行金融交易時,我們會使用人臉識別來確認人們的身份,這也是我們 IDL 的計算機視覺團隊與金融服務團隊(他們有金融產品和深度的領域知識)合作的成果。所以在百度工作,這方面還是非常好,我們的技術團隊可以很容易去創造或發明新技術,並且可以輕鬆地和其它出色的產品團隊合作,將這些新技術快速投入到產品中從而為他們的海量用戶提供幫助。
機器之心:百度在招募人才、組建人工智慧團隊方面,有哪些經驗可以分享?
吳恩達:你知道如今人工智慧發展迅速。我認為百度持續在做的一件事是在職員上做投資,擴展我們的團隊。據我所知,百度在職員培養、訓練上的投資要比其他公司都大,我們進行常規的課程從而讓團隊了解最新的人工智慧技術,所以我們的團隊會變得越來越好。
在美國和中國,我認為百度正在獲得這樣的聲譽:如果你想要學習人工智慧,這裡就是你該去的地方。也許很多人不了解,但我認為對全世界的科技巨頭而言,李彥宏是第一個意識到深度學習巨大潛力的領導者。我認為李彥宏具有很深的技術背景,同時對人工智慧技術有著透徹的理解。我們很幸運在百度成立 17 年的時間裡,有他一直在帶領著公司建立並且積累基礎的人工智慧科技。我認為我們現在的這些成果都是建立在李彥宏打下的基礎之上的。
我們都知道 IDL(百度深度學習實驗室)主任是林元慶,但很少有人知道其實 IDL 的第一位主任是李彥宏本人。他預見了深度學習的發展趨勢,並希望百度首先投入其中。不僅僅是在中國,放眼全世界的科技公司,你很難找出一個和李彥宏相似這樣有預見性的領導者了。
對人工智慧領域的看法和期望
機器之心:小度在《最強大腦》的節目中表現優異,但人工智慧技術在實際應用層面還面臨諸多挑戰,比如無人駕駛汽車的安全性等,您怎麼看待這一類難題?
吳恩達:當飛機在大霧或雨天著陸的時候,基本上都是在用基於計算機軟體的全自動駕駛。所以,我認為如今已經有了能做出與性命相關決定的軟體。我認為,如今有了人工智慧,這些重要決定將會更容易作出。無論它是設定在自動駕駛內,還是醫療領域中(比如自動診斷)。當然,我認為人工智慧研究者還面臨著一個重大責任——就是在各個垂直領域內作出謹慎的評估,這才能夠讓人們更加相信人工智慧。
說到自動駕駛汽車,這是近年來快速發展的另一領域。它面臨的一個重大挑戰就是:現有的交通法規大部分是為人類駕駛員所寫的。所以自動駕駛在發展中面臨的最大挑戰就是需要制定既適用於人類又適用於計算機駕駛員的新法規。我認為這是加速全球自動駕駛普及的關鍵。
機器之心:很多人說可怕的不是人工智慧,而是人工智慧落到的壞人手裡。您怎麼看待這一說法?如何防止出現這樣的現象?
吳恩達:之前我們將人工智慧比作是新時代的電力——就像是一百年前電力是新出現的超級力量一樣,現在的超級力量就是人工智慧。在絕大多數情況下,電力都給我們這個世界帶來巨大的好處,我們現在幾乎不能想像沒有電的生活;但不幸的是,電力也被用在一些不好的方面。幸運的是,我認為現在絕大多數人工智慧領域內的人都是好人,我們做人工智慧是因為我們希望幫助人類。所以我相信總的來說,人工智慧將給這個世界帶來很大的積極影響。我也認為每一個人工智慧工程師和研究者都有個人責任,確保其成果能夠有益於這個世界。基於我對全球人工智慧業界的了解,我認為現在全球人工智慧行業整體上都在做著非常有益於這個世界的事情。
機器之心:你曾經在《哈佛商業評論》中撰文呼籲各大公司設立首席人工智慧官(Chief AI Officer),你認為首席人工智慧官需要具備什麼樣的特質?
吳恩達:百度是世界上最好的人工智慧公司之一,我們在公司的每一天都在思考人工智慧。我希望能夠將我們的一些想法和人工智慧社區以及世界上的其他人分享,從而幫助推動全球人工智慧的發展。
關於首席人工智慧官,我認為目前人工智慧所面臨的難題之一是:將這種我們已經擁有的技術應用到能夠真正有助於我們的業務的使用案例中。所以我認為首席人工智慧官應當具備兩種關鍵技能:一是理解這種技術(這很重要卻也很難),二是了解自己公司的業務並且搞清楚如何將這些讓人驚嘆的人工智慧技術和你的業務匹配起來,從而讓你能夠創造出重要的價值。
機器之心:大公司都在重金投資人工智慧領域,它們也在數據量上擁有絕對優勢,您認為初創型公司還有機會在競爭中佔據主導位置嗎?
吳恩達:我們最好的語音識別系統大約是在 5 萬小時的數據上訓練的。我們的語音識別系統,也就是小度這次使用的這套系統是在 2 萬說話人數據的基礎上訓練的。所以如今就有一些問題,如果你想要獲得頂級系統,我們就需要大量的數據。所以在一些領域中,小公司使用如今已有的科技建立百度這樣有效的系統還是很有挑戰的。
但我認為在一些垂直領域中,例如,在罕見疾病的醫療成像上,全世界在這些領域可能都沒多少圖像。所以,我認為在這些垂直領域中,即使少量的數據也可能建立有相當好表現的系統。
儘管如此,我也認為百度的數據、資本、超級計算機,再加上我們的人才,確實使得我們能更快地建立最好的人工智慧系統。
機器之心:人工智慧的技術研究在哪些方面改變了百度,又將如何滲透到更多的行業?
吳恩達:人工智慧已經完全變革了百度——從網頁搜索到我們組織外賣送遞的方式,再從我們推薦內容的方式到我們進行人臉識別、身份認證、語音識別的方式等等。所以這些都已經用到了人工智慧。我認為除了變革百度的產品之外,我們也很高興能將人工智慧技術提供給第三方,讓它們也能使用我們的語音、計算機視覺、NLP 等等各種不同的人工智慧技術來變革自己的產品。
我認為,人工智慧會在未來改變所有行業的形態。有的時候我的朋友會和我打賭,看看某個行業在最近幾年不會被人工智慧所改變。你也可以嘗試想想看,實際上我們很難想出在未來幾年不會受到人工智慧影響的行業。我最喜歡的例子是理髮師,實際上我發現創造一個能夠理髮的機器人是很困難的。曾經我在台上演講也說過類似的話,但我有一位機器人學教授朋友告訴我,她說對於大部分的髮型來說確實如此,機器人很難幫他們理髮;但她也指出:「至於你的髮型嘛,我可以讓個機器人剪出來。」所以我覺得實際上我們很難確定一個不會被人工智慧改變的領域,我認為不管你的業務是什麼,都可以考慮一下利用人工智慧來增強你的優勢。
機器之心:你想對中國的人工智慧從業者和機器之心說些什麼?
吳恩達:我認為中國很幸運有機器之心這樣的頂尖媒體將全世界的人工智慧進展快速分享給中國的讀者。實際上,中國和世界的信息傳播有一種奇怪的不對稱——全球的人工智慧進展可以非常快速地傳播到中國,但有時候百度等在中國發布或發表的進展卻很少讓世界其它地方的人知曉,這可能是因為他們並不閱讀中文的媒體。當然我希望這種世界向中國的知識共享能夠繼續,我也希望我們能做些什麼來幫助世界其它地方的人更快地了解中國的人工智慧發展和前沿成果,這樣我們就能讓整個世界的人工智慧研究社區都更快速地進步了。
「AI Talk」 是機器之心最新出品的視頻訪談欄目,旨在邀請國內外人工智慧頂級專家分享對技術和行業的觀點,為大家呈現更為直觀、豐富的內容。
※百度宣布原微軟高管陸奇加盟,任總裁兼COO
※有了這款工具,任何人都可以開發量子計算軟體了
※專訪微軟小冰負責人李笛:智能助手是創造需求,而非僅提高效率
※Jeff Dean 領銜,矽谷 AI Frontiers大會全程亮點回顧
※機器之心獨家專訪:首度揭秘地平線語音戰略與研究
TAG:機器之心 |
※海賊王里短時間戰平大將的幾個人,只有一人真有大將實力
※冷門,皇馬主場戰平升班馬,一人離隊之後帶來影響太大了
※三國袁紹兄弟手下四大虎將,曾與關羽趙雲戰平手,最後一個更牛
※恆大上港戰平誰獲益最大?球迷都不約而同的想到了這隊
※國字型大小首次戰平柬埔寨,除了張修維和劉奕鳴,可說的真不多……
※石家莊永昌隊戰平了比賽,滅失了希望,丟失了信心,培養了新球迷
※上港半場戰平浦和,專家熱議:此人靈活性和速度不夠
※大連一方戰平武漢,沖超又近了一步
※此人在《水滸傳》中只有一次出場,但是武功高強,他的徒弟能戰平魯智深
※戰平天空星又對抗天捷星的大將,斬殺梁山三人後最終死於熱兵器
※亞冠上港戰平浦和優勢不在,一細節看武磊是多希望能進球!
※這哥倆均為虎威將軍,一個難敵女流之輩,一個卻戰平天威星
※人才濟濟的法國戰平盧森堡領先優勢縮水,這個問題令德尚頭疼
※火影忍者博人傳鳴人拿手忍術遇到對手,岩部說她能與鳴人戰平
※丁寧慘敗後壓力多大?踹爛廣告牌9比0碾壓日本一姐,怒吼戰平野
※龍族其實很強大!四海龍王一起上其實就可與孫悟空戰平
※日本球迷吐槽亞冠失利:不敢相信比中國人踢的差,去年還戰平皇馬
※恆大半場戰平蘇寧,斯科拉里安排的一人受到質疑
※民間故事:平頭哥打傷傻狍子,成精的黃鼠狼約戰平頭哥