對話微軟黃學東:語音和語言讓AI從「感知」進化到「認知」
【新智元導讀】微軟全球技術院士、首席語音科學家黃學東近日做客微軟播客節目,聊了聊在語音和語言技術取得的幾個里程碑式的突破,解釋了掌握語音識別、翻譯和對話將如何讓機器從 「感知 AI」 進化到 「認知 AI」,更接近真正的人類智能
「語音和語言技術是真正鑲在人工智慧皇冠上的明珠。」
已經在語音和語言技術領域耕耘了30年,取得多個突破性進展的微軟全球技術院士 (Technical Fellow)、首席語音科學家黃學東先生如此說道。
近日,黃學東做客微軟播客節目,聊了聊他和團隊在語音和語言技術取得的幾個里程碑式的突破。
黃學東解釋了掌握語音識別、翻譯和對話將如何讓機器從 「感知 AI」 進化到 「認知 AI」,更接近真正的人類智能。
此外,黃學東也談到他如何走上語音研究之路,以及他在清華大學和在微軟的人生歷程。
採訪音頻:
語音和語言將推動人工智慧的進化
主持人:黃學東先生,歡迎來到微軟播客。
黃學東:謝謝。
主持人:您是微軟語音和語言組的 Technical Fellow,負責領導微軟的語音工作。我們將在稍後深入討論這些,但首先,作為公司的首席語音科學家,請概括地告訴我們你的工作內容是什麼,以及為什麼要做這些。你早上起來的動力是什麼?
黃學東:我們所做的就是確保我們擁有最好的語音和語言技術,可以用於各種各樣的場景。我們有一整個團隊在做這件事情,因為對話不僅是人們最自然的交流方式,而且這是 AI 最大的挑戰。我們嘗試真正地推動這個領域的突破,在我們的雲服務 Azure Services 上提供出色的服務,並確保我們能夠讓微軟內部和微軟之外的客戶滿意。如果你想釐清整個事情,主要有三個方面。
首先,我們有能力去真正提高語音識別的準確性,去驅動語音合成的自然性,以及確保機器翻譯的準確性,例如從英語翻譯成漢語或法語或德語。因此,這背後有很多科學,要確保準確性,自然度,延遲時間,這些技術都是世界級的。這是一方面。
第二方面是,我們不僅提供技術,我們還通過 Azure 提供服務。從 Office 到 Windows, Cortana,它們都依賴於相同的雲服務。我們也有邊緣設備,比如我們的語音設備 SDK。我們想要確保在邊緣和雲端的語音技術都是以現代的方式提供的,即雲平台和嵌入式平台。這是第二方面:平台是現代化的。
第三個方面,是向客戶表達我們的愛。因為我們在世界各地都有廣泛的客戶,我們想讓消費者滿意,並確保使用我們的語音翻譯的客戶體驗是一流的。
主持人:是的。
黃學東:這就是我實際上在做的三件關鍵事情:提升 AI 能力,使我們在雲端和邊緣設備的平台實現現代化,以及愛我們的客戶。
主持人:嗯,所以你們有很多團隊在這些小組中工作,來解決這些核心問題。
黃學東:是的。我們在世界各地都有團隊。並且,這些團隊的多樣性是很驚人的,因為我們正在努力解決的是語言障礙。因此,我們在中國有團隊,在德國、以色列、印度和美國都有團隊。我們的工作是全球範圍的,嘗試努力去解決這些語言挑戰。
主持人:首先,我想引用你的話為我們今天的談話做鋪墊。你說:「語音和語言是人工智慧皇冠上的明珠。」 請為我們解釋一下吧。
黃學東:嗯。我們可以從人類進化的範疇來思考。在某個時期,語言誕生了。這加速了人類的進化。你可以想想這個星球上所有的動物,你知道的,有些動物跑得比人類快,有些動物視力比人類好……
主持人:有些動物的牙齒也更鋒利。
黃學東:…… 尤其是在夜裡。
主持人:動物更強大。
黃學東:是的。事實上,動物的聽覺和嗅覺都比人類更好,但只有我們人類才擁有語言。有了語言,我們能夠更好地組織,能夠用科幻的術語去描述,能夠自我組織,能夠編寫憲法。所以,是語音和語言使我們有別於其他動物。對人工智慧來說,語音和語言將推動人工智慧的進化,就像它推動了人類的進化一樣。這就是為什麼說它是鑲在人工智慧皇冠上的明珠。
主持人:原來如此。
黃學東:而且它還很堅硬,難以破壞。
主持人:是的。關於這個話題有一個哲學討論,但它引出了一些有趣的問題。假如你在機器語言方面取得了很大的成功,那麼,這些機器是什麼?
黃學東:讓我們發揮一點想像力……
比如說,我們假設計算機可以理解 300 種語言,能夠流利地交流和對話。但我還從沒遇到過一個會說 300 種語言的人。機器不僅能夠用 300 種語言流暢地交流和對話,還能夠領會、理解、學習和推理,真正完成所有學科的博士課程。這種知識的獲取、推理,是任何人的個人能力所不能及的。當那一刻到來的時候,你可以想像 AI 將會有多麼聰明。
主持人:這是你想像出來的嗎?
黃學東:是的。我認為這個世界會變得更美好。就在幾周前,我去了日本,我手機上安裝了微軟翻譯軟體。我能真正地與不會說中文或英文的日本人交流了。這已經實現了。微軟翻譯可以說我不會講的語言,幫助我在日本時更有效率。
主持人:我完全同意。但想到這個機器,我就有點害怕。
黃學東:但是你要知道,智能有兩個層次。第一個層次是真正的感知智能 (perceptive intelligence)。就是看、聽、聞的能力。更高層次的是認知智能 (cognitive intelligence)。就是推理、學習和獲得知識的能力。我們今天所取得的 AI 的突破,大多是在感知層面的,如語音識別、語音合成、計算機視覺等。但是高層次的推理和知識獲取,即認知能力,AI 離人類的水平還很遠。
主持人:是的。
黃學東:我對翻譯感到興奮,因為它實際上是介於感知智能和認知智能之間的。我們能夠真正地在感知智能上取得成功,並擴展到認知智能。這是一個相當漫長的過程。
主持人:是的。
黃學東:我不知道我們什麼時候才能達到那個裡程碑。但那一天會到來。這只是時間問題。可能需要 50 年的時間,但我認為這是會發生的。
微軟語音技術研究之路
主持人:我們會在下回的播客中討論這個裡程碑,因為今天已經有好幾個里程碑要討論。但首先,我想回顧一下歷史。你已經在微軟研究院工作了很長時間了,在 Rick Rashid 成立微軟研究院的時候,語音組是第一批研究組織。根據 MSR 的傳說,這個組織的目標是 「讓語音成為主流」。請給我們簡單介紹一下微軟研究院的語音歷史。這項研究是如何從早期的 「不主流」、「敢於冒險,但離成功還很遠」 發展到今天幾乎應用在微軟所有產品中?
黃學東:在加入微軟研究院之前,我在匹茲堡的 CMU 任教。Rick Rashid 當時是 CMU 的教授。我當時是初級教員。所以,我當時主要是在 CMU 做關於語音的研究。微軟伸出了橄欖枝,他們想成立一個語音組。所以,實際上,我在 1993 年元旦假期後的第一天就搬了家,從匹茲堡飛往西雅圖,開始了在微軟的旅程,並從未改變。這就是微軟語音的開端。我們是一個研究團隊,致力於為開發者帶來語音技術。
主持人:所以,不是沒有實用價值的研究……
黃學東:不是的。因此,我們從 CMU 獲得了技術許可。我們就是這樣起步的。我們非常感謝 CMU 在這一領域的開創性研究。雖然是研究團隊,但我們發布了第一個語音 API,叫 SAPI,用在 Windows 95 上。作為一個研究團隊,我們對此感到非常自豪,因為通常研究團隊只是做基礎研究。我們不僅做了基礎研究,還繼續挑戰極限,繼續提高識別精度,我們還與 Windows 合作,把這項技術帶給了 Windows 開發者。SAPI 是業界第一個基於 Windows 的語音 API。
主持人:哇。
黃學東:那真是一段很長的經歷。後來,我最終離開了研究部門,加入了產品部門。跟我一起轉入產品部門的是一個優秀的微軟語音研究組。這是我在微軟 27 年的經歷。我在 2004 年之後就不再做語音了,在我們發布了語音伺服器之後,我開始做了很多不同的事情,包括孵化研究。
在薩蒂亞?納德拉 (Satya Nadella) 負責 Bing 的時候,我還做過 Bing 的架構師。然後,在 Harry 負責研究和技術團隊時,我幫助孵化了一系列人工智慧項目,包括 GPU 集群、Project Philly、深度學習工具包 CNTK 等基礎項目。當然,還有語音研究,還包括其他高端解決方案。
大約三年前,我有幸回來負責語音和語言組。我們基本上整合了所有在語音和翻譯方面的資源,這就是我的經歷。精彩的 27 年。
主持人:語音和語言組在屬於哪個部門?
黃學東:正如我說的,我們在研究部門和產品部門之間來回了很多次。現在,我們屬於雲和人工智慧部門。這是一個產品團隊。我們是雲服務的一部分,向全公司和全行業提供語音和翻譯服務。我們也有語音和對話研究。他們更像一個研究團隊。
主持人:是的。
黃學東:那個組裡全是研究人員。正如 Rick 說的,技術成果轉化是一項需要各部門配合的事情。我們不僅是各部門緊密配合,我們已經成了一個整體。這是一個非常令人興奮的團隊,有一群非常有才華、非常有創新精神的人。
主持人:所以,在研究模式上還是很有前瞻性的……
黃學東:不僅是有前瞻性,而且是有充分依據的。我們必須腳踏實地提供服務,也要站到未來的高度,去定義人們需要的和人們想要的解決方案是什麼,即使現在這個解決方案尚不存在。
三個里程碑:語音識別、機器翻譯和對話問答
主持人:讓我們來談談你參與的一些研究里程碑。它們真的很有趣。你參與了三個領域:對話式語音識別、機器翻譯和對話問答。讓我們從語音識別開始。2016 年,你帶領的團隊在轉寫對話語音方面達到了人類水平的歷史記錄。請說說這是什麼怎麼一回事,是怎樣做到的?
黃學東:在 2016 年,我們在廣泛使用的 Switchboard Conversational Transcription 任務上達到了媲美人類的水平。這項任務在研究界和工業界可能已經有十多年了。2017 年,我們重新刷新了這個裡程碑,不是和一個人比較,而是和一群人比較,轉寫同樣的任務。所以,我認為 2017 年是一個歷史性的時刻。轉寫相同任務,微軟語音堆棧的表現優於所有四個團隊的總和。最初我向我們的研究小組提出挑戰時,沒有人認為能做到。但令人驚訝的是,當我們有了信念,有了資源,有了專註的焦點,奇蹟真的發生了,只花了不到兩年的時間。所以,對於團隊,對於科學,對於技術來說,那確實是一個美妙的時刻。那是我個人職業生涯中實現的第一個達到與媲美人類水平的里程碑。
主持人:所以,我想深入探討一下這個問題,因為你所說的這些非常有趣:在兩年的時間裡,沒有人認為這件事能夠做到,然後你們做到了。請告訴我們更多關於你們是如何實現這一點的技術層面的事情。
黃學東:如果你回顧一下語音研究的歷史,你就會發現,很多後人反覆使用的突破性成果都是語音團隊開創的。讓我們以翻譯為例。在 70 年代早期,即使是語音識別,使用的也是更傳統的人工智慧,比如基於規則的方法,專家系統。IBM Watson 的研究團隊率先使用隱馬爾可夫模型,使用統計語言模型,進行統計語音識別。事實證明他們突破了極限,極大地推進了這個領域的發展。因此,那是語音領域的一個高光時刻。
同樣是這批 IBM 語音的研究人員,他們借鑒了語音識別的方法,並將其應用到翻譯中。他們改寫了機器翻譯史,大大提高了翻譯的質量。在隱馬爾可夫模型之後,深度學習開始被用於語音識別,即神經語音識別。再一次,翻譯借鑒過來,出現了神經機器翻譯,而且還很先進。所以,你可以看到,語音技術總是被其他領域借鑒的。實際上,語音領域的研究者一直在做系統的基準測試,這是一種非常嚴格的評估,改變了科學和工程的評估方式。
主持人:是的。
黃學東:所以,語音技術社區有很多經驗可以借鑒,這些經驗本可以在語音之外得到廣泛的應用。所以,我們借鑒了這些經驗,去處理更艱巨的任務。這樣看來,我們同一個團隊實現了這些不同任務的歷史性里程碑也就不足為奇了。
主持人:那麼,讓我們來談談另一個里程碑:在 WMT-2017 的中英新聞機器翻譯任務中,實現了媲美人類的水平。這是如何做到的?讓我們回到我們最初的問題 —— 你是否認為現在機器已經可以媲美傳統的人工翻譯服務?以及為什麼這項工作是一個重要的突破?
黃學東:所以,我們團隊實現的第二個里程碑式突破同樣令人興奮。正如我剛才說的,轉寫 Switchboard 對話是低水平的任務,處於感知 AI 層面。翻譯是介於感知 AI 和認知 AI 之間的一項任務。當然,翻譯是一項更艱巨的任務,沒有人相信我們能做到這一點。所以,我們設定了一個目標:在五年內,看看我們能否在句子層面實現媲美人類的翻譯水平。我們人類翻譯時,觀察的是整個段落,我們會有更廣的背景知識,所以我們能做得更好。所以,我們限制在廣泛使用的 WMT 數據集,這是一個逐句翻譯新聞句子的任務……
黃學東:這是一個開放的研究,有公開的基準。但即使有這些限制,我們也認為可能要花五年的時間。因此,我們將語音識別研究中獲得的成功作為基礎。但這一次,我們實際上走得更遠。我們與微軟亞洲研究院的同事合作,因為這是一個中文到英文翻譯的任務。令人驚訝的是,這群人讓所有人都大吃一驚。我們在不到一年的時間裡完成了這個任務,新聞句子中英翻譯達到了人類的對等水平,同一任務上機器的翻譯比專業人員更好,這是一個歷史性的突破。我為這個團隊感到驕傲,也為這次合作感到非常自豪。
主持人:另外一個非常有趣的領域是 COQA,對話問答。請給我們講講這項語音識別技術中最人性化,也許也是最困難的工作。
黃學東:這項任務是由斯坦福大學的研究人員首創的。它離認知 AI 更近了一步。這實際上是機器閱讀理解任務。就是你讀了一段話。然後我們用一系列相關的問題來挑戰正確的回答。例如,假如你讀到關於比爾?蓋茨的一段話,第一個問題可能是,「誰是微軟的創始人?」 第二個問題可能與第一個問題有關,「這個人開始創建微軟時多大?」 或者,「這個人退休時多大?」 所以,上下文關聯比簡單的機器閱讀理解要難,因為必須在給定的上下文背景下回答一系列相關的問題。
所以,對於這一最新的突破,我必須要歸功於我們 base 在北京的研究實驗室的同事們,我們一直在利用共享的資源和基礎設施共同開展這項工作。結果很驚人。在這項對話問答挑戰中,我們不管是準確性還是速度都讓人印象深刻。再一次,我們在這個廣泛關注的 AI 任務上實現了媲美人類的水平。沒有人相信可以在如此短的時間內實現這種對話問答的人類同等水平,我們最初認為可能需要兩年的時間。我們再一次打破了歷史記錄。
主持人:嗯,我們已經討論了一些技術方面的問題。那麼,在最後一個問題上,你們是否有其他方法或技術能解決這個問答任務呢?
黃學東:微軟在 AI 方面已經積累了 30 年的研究和經驗。北京的自然語言小組,在過去的二十年里一直在做這個,他們匯聚了很多人才,積累了很多經驗。我們基本上是使用深度學習和遷移學習。同時,我們的成功也構建在整個社區的基礎上。
比如,谷歌開發了一項名為 BERT 的技術。我們在 BERT 的基礎上取得了成功。
主持人:嗯嗯。
黃學東:所以,這其實是整個研究社區的想法。我剛剛談到微軟亞洲研究院和微軟美國團隊之間的合作。事實上,這是整個行業合作的一個很好的例子。
從清華到愛丁堡:讓人類真正與機器交流的夢想從未消失
主持人:您在這期節目中向我們描述的事情非常令人興奮 —— 如果你成功了,我們必須解決可能出現的問題。
黃學東:是的。
主持人:你想讓電腦能夠聽、說、翻譯、回答問題 —— 擁有與人交流交流的能力。有沒有什麼讓你擔心的?
黃學東:是的,當然。我擔心的是,總有一天,人類會過於依賴 AI。AI 永遠不可能完美。AI 總是會帶有偏見。所以,我擔心這種不易覺察的影響。
主持人:是的。
黃學東:這是一個我們必須意識到並且必須解決的廣泛的社會問題。因為就像任何人一樣,如果你有一個你所依賴的助手,你會知道那個助手可以影響你,改變你的計劃,改變你的觀點。總有一天,AI 也會扮演同樣的角色。AI 會有偏見。如何處理這個問題是我最關心的。
主持人:是的。
黃學東:如果一切順利的話。這確實是我們必須處理的首要問題。不過目前我們不知道如何處理,因為我們還沒有達到那個階段。
主持人:那麼,你在開發這種能說話、傾聽和交流的工具時,有沒有一種 「設計思維」 呢?
黃學東:我只能相信,現在研究 AI 的人都有足夠的責任感。好消息是我們還沒到達那一步,對吧?所以,我們有時間合作來解決這個問題,確保 AI 真正為人類服務,而不是毀滅人類。
主持人:是的。
黃學東:但是我短期的擔憂是,AI 還不夠好!至少現在還不夠好!
正如比爾?蓋茨曾經說過的,人們總是高估了短期內的能力,低估了長期的影響。對於 AI,我們不能低估它的長期影響。
主持人:最後,請說說你個人的故事吧。是什麼讓你對研究感興趣,尤其是對語音和語言技術的研究感興趣,以及你加入微軟的經歷是怎樣的?
黃學東:好的。我畢業於清華大學。那時,我的第一台電腦是 Apple 2。你可能知道,那時電腦輸入漢字是很麻煩的。因此,這讓我想到了語音識別。當時,作為清華的研究生,我的夢想就是在 AI 領域做研究。
清華匯聚了一大批有遠見的教授和教員,為我們的探索和實驗創造了先進的環境。所以,我在清華完成了碩士學位,接著繼續在清華讀博。從 1982 年起我就開始做語音識別研究了,因為我是 1982 年被清華錄取的。對我來說,讓人類真正與機器交流的這個夢想從未消失。所以,我在這方面的研究已經超過 30 年了。即使在微軟,有很短一段時間我不在做語音,但仍在做一些相關的事情。
所以,我打心眼裡認為我與語音研究之間是一個非常美妙的故事,我個人也在這個過程中收穫了許多有趣的經歷。正如我剛才提到,在清華上學的時候,電腦輸入中文還是一件很難的事情。我實際上沒有在清華大學完成博士學位,而是在愛丁堡大學……
主持人:噢。
黃學東:在蘇格蘭。我在那裡完成了博士學位。但當我第一次來到愛丁堡時,我個人感到非常痛苦 —— 我在中國學習英語,主要是美式英語。我的英語不是很好,因為那不是我的母語。但是聽一位蘇格蘭教授說話的時候……
主持人:哦,天哪!
黃學東:…… 總之是很有挑戰性。但我很感激 BBC 有隱藏式字幕。所以,我實際上是通過看 BBC 學會了蘇格蘭英語。
而且我不得不提的是,現在微軟 PowerPoint 上已經有自動字幕技術了。從那段個人的痛苦經歷,到 Office PowerPoint 團隊在研發這款產品時考慮了這種功能,對我個人來說也非常受益。
主持人:是的。
黃學東:我很高興看到我所研究的技術將幫助許多其他正在蘇格蘭上大學的人!
因為語言障礙一直存在。不是每個人都能說一口流利的英語。我接待了很多遊客。幾乎每年我都會接待清華大學的 MBA 學生,他們都學過英語,但他們的交談和聽力能力,就是不如英語國家的人。所以,我們能夠在 ppt 演示上提供字幕這個簡單的功能,實際上幫助了非常多的人……
主持人:是的。
黃學東:…… 為了更好地學習和理解。所以,這個功能的應用場景實際上非常廣泛,甚至不需要翻譯。只要有字幕,就能更好地溝通。
主持人:確實。我們之前談到不同的語言,也談到一些方言,但我們並沒有探討語言中的口音問題。即使是在美國,各個地方也會因為口音的不同而更加難以理解。
黃學東:這就是為什麼我的蘇格蘭英語會變成一個好故事!我希望我還保留有一點蘇格蘭口音!
主持人:我聽出來您的蘇格蘭口音了!在每期節目的最後,我都會請嘉賓最後說一句話。現在請您對我們的聽眾說任何你想說的話,他們可能對使計算機能夠交談和溝通感興趣。如果他們想進入這個領域,應該從哪裡入手呢?
黃學東:研究語音和語言!這是真正鑲在人工智慧皇冠上的明珠。在我看來,沒有比這更有挑戰性的了。尤其是如果你想要讓感知 AI 進化到認知 AI,更是如此。這是一個基本的研究領域,讓機器通過閱讀、交談來獲得推理、理解、獲取知識的能力,它可以改善每個人的生活,提高每個人的生產力,讓這個世界變得更加美好,沒有語言障礙,沒有溝通障礙,沒有理解障礙。
主持人:感謝您今天應邀參加我們的播客節目。您分享的東西非常棒。
黃學東:我的榮幸。
原文地址:
https://www.microsoft.com/en-us/research/blog/speech-and-language-the-crown-jewel-of-ai-with-dr-xuedong-huang/
※Nature:同行評審屢遭毒噴,中國欲啟用AI系統解決問題
※斯坦福黑科技打造新型交互機器人:看視頻一學就會!
TAG:新智元 |