口音歧視?語音AI技術的尷尬,卻暗藏社會經濟地位偏見
智能語音助理已經成為現下最火的人機交互技術,用說的就可以下指令、查找東西、或是陪聊,但想讓它得聽懂你說什麼,前提是你說話沒有帶口音。
先說一個真實故事吧,有一回 DT 君在美國友人家想要觀看由知名導演 David Lynch 執導,睽違 26 年才回歸的燒腦影集—《雙峰》(Twin Peaks),對著當地有線電視 Comcast 的語音搜索助手說「Twin Peaks」,但不管說了幾次,電視畫面永遠只顯示青春校園片,猜想它應該是把「Twin」,聽成了「Teen」。那時 DT 君有一個感覺:我的英文這麼差嗎?聽不懂你口音的語音識別系統令人沮喪。
口音,是一種某個群體、地區或國家所特有的發音方式,而帶口音的語音與標準語音間的差異主要體現在發音方面而非辭彙等層面。對於非英文母語的人來說,說英文時往往會受到母語發音的強烈影響,例如中文腔、歐洲腔、印度腔,同樣的,我們聽外國人講中文,經常覺得他們帶有濃濃的口音。
口音,對人類來說,不是大問題,有時還會覺得充滿了異國情調的魅力,但對機器來說,卻是高級挑戰。
當人類聽不明白帶口音者所要表述的內容時,可以請對方再說一次或說慢點,但目前智能音箱、手機上的語音助手不具備這種能力,當它們聽錯帶有口音的人所說的話,用戶可能覺得體驗很差,決定放棄使用,目前來看,這件事不是一個大問題,但如果看得更深一點,特別是訓練數據集的來源很可能暗藏著一種歧視危機時,它會是一個更嚴肅的議題。
自動語音識別的挑戰
一直以來,說話的口音是自動語音識別(ASR)系統希望進一步突破的領域,不論是對神經網路引擎或統計模型都是如此。
華盛頓郵報不久前發表的一篇深度報導引起了頗大的迴響,他們與 Globalme、Pulse Labs 兩家語言研究公司合作研究智能音箱的口音問題,研究範圍來自美國近 20 個城市、超過 100 位受試者所發出的數千條語音命令,發現這些系統對不同地區人們的語言理解有著差異,例如 Google Home 聽懂西岸口音勝於南方口音,但差異更明顯的是,非英文母語(non-native)的人所說的英文,例如以西班牙文、中文作為第一語言的人,在此測試中,這兩大族群所說的英文,不論是 Google Home 或 Amazon Echo 的辨識準確率都是排最後,很可惜的是,拉丁裔及華裔是美國兩大移民族群。
反觀印度族群所說的英文,Google Home 或 Amazon Echo 對其辨識率均高於西文腔和中文腔英文。就有網友開玩笑說,不知道這與開發者的背景有沒有關係,因為這兩家公司都有許多工程師來自印度,當他們在開發產品時,每天跟智能語音助理對話,因此機器比較聽得懂他們的英文。
圖|華盛頓郵報測試智能音箱的口音問題(資料來源:華盛頓郵報)
面對此研究發現,上述兩家科技巨頭官方回應是:口音仍然是他們面臨的主要挑戰之一,他們正投入資源以訓練、測試新的語言和口音,包括利用遊戲的方式來吸引用戶,以取得不同的聲音數據。
「這些系統最適合白人,受過高等教育的中產階級美國人,可能來自西岸,因為那是打一開始就可以使用該技術的群體,」Kaggle 數據科學家 Rachael Tatman 接受華爾街日報採訪時不客氣地說。
智能語音助理只服務高富帥、白富美?
等等,難道這是要說智能語音助理有歧視?在進入這個智能語音助理難道是歧視帶有口音的人這個嚴肅話題之前,先簡單談下 ASR 的訓練方式。
要訓練機器識別語音,需要大量的語音樣本。首先,研究人員會收集談論各種話題的聲音,然後手動轉錄、剪輯這些音檔。這種數據組合—音檔和手寫抄錄,也就是所謂的語音語料庫(speech corpora),讓機器在聲音和文字之間產生關聯,變成學習人類如何說話的演算法,進而可以辨識語音,當遇到先前沒有聽過的單詞或口音時,最好它還會猜對。
例如,賓夕法尼亞大學發起的語言數據聯盟(LDC),在全球眾多大學的加入下,累積了不少的語料庫,可對外授權給公司和研究人員使用,其中最著名的語料庫之一是 Switchboard。
Switchboard 起初是由 DARPA 贊助、知名半導體公司德州儀器(TI)在 1990 年左右進行數據搜集的電話語音語料庫,當時為了吸引大眾參與,研究人員還祭出長途電話卡作為小禮物,民眾撥電話到研究專線,跟研究人員談論某些話題,像是兒童保育或體育。此項目搜集了 543 位發言者(caller)、70 個話題,總計大約 260 個小時的電話錄音。而 Switchboard 自 1992 年由 LDC 發布後第一版後,持續進行修正及更新,微軟及 IBM 近一兩年的語音識別研究,就使用 Switchboard 來測試語音系統的錯字率(WER,Word Error Rate)。
中文部分也有不少語料庫,例如,北京大學 CCL 漢語語料庫、北京語言大學 BBC 漢語語料庫、民間企業則有海天瑞聲科技投入,另外,在國家 863 高技術項目支持下完成的 RASC863 普通話語音語料庫,可以說是目前規模及應用較大的中文帶口音的語音資料庫。
口音數據搜集的難題
ASR 系統在識別口音不夠好的主要原因在於缺乏帶口音的數據集。收集數據本身就是一項成本昂貴、流程繁瑣的工作,訓練系統識別新口音時,通常是音韻學家(phonologists)根據說話者的口音,手動提取語音的特徵,寫成通用的規則。
相反的,標準語音的採集和標註難度較小,比較容易獲得訓練模型所需要的大量數據,所以大多數開發出來的 ASR 系統都是基於標準語音訓練而生,以美國為例,就是所謂的通用美國英語(GAE,General American English),像是廣播、新聞節目中的字正腔圓英文。
由於 GAE 不具備明顯地區或種族特徵的英語口音特徵,而且機器缺乏不同口音的音頻樣本,自然就不知道之間的差異。當說話者帶有某種重口音,對著智能音箱說話、下指令,此時機器收到一個輸入(input),input 中含有的口音變異會導致測試數據的聲學特性與標準語音訓練的 ASR 失配(mismatch),就可能出現識別錯誤的現象。
儘管有公司會宣稱自家的系統可以辨識帶口音的說話,但事實上得看辨識到什麼「程度」,能聽懂「幾種」特定口音?能聽懂輸入的一部分,還是全部?目前看來,就算是先進的 ASR 系統如 Google 、亞馬遜,依舊不夠完美,在面對西語腔英文或中文腔英文時的錯誤率較高。
機器無錯,但數據多元化可以讓它變更好
正因為搜集帶口音數據的成本高,對企業來說,自然會選擇先從體量較大的群體下手,相較於說著標準語音的族群,帶口音的群體是少數,因此企業多會認為服務大多數人或目標客群,才能取得較高的投資效益,等到有餘力再去優化產品,所以就算開發的系統無法很準確識別帶口音的語音也不是什麼大錯。也就是說,當一切基於商業考量,只想著哪些群體比較願意或是有錢購買自家的產品,口音就容易被忽略。
至於規模較大的公司例如蘋果、谷歌和亞馬遜,他們的產品有很大部分是銷售到美國以外的地區,他們意識到迎合口音是件重要的事,內部均有自己的方法來收集這些語言和口音數據,但就算如此,很大程度上是只針對每個國家進行訓練,例如同樣是「英文」,會預先針對美國、英國、澳大利亞的口音做訓練。同時,消費者越常使用他們的產品,提供的反饋越多,越能幫助產品的改善,「隨著越來越多的人與 Alexa 交談,並且有各種口音,Alexa 的理解能力將得到改善,」亞馬遜表示。
另一方面,他們期望借開發者夥伴之力一起來解決問題,例如 Alexa 應用程序上的 Voice Training 程序,另外 IBM Waston 也提供 API,讓開發者上傳音檔來自定義、訓練模型,以識別有口音的語音。但儘管如此,他們仍認為口音依舊是個挑戰。
如今更多語音數據的積累,無疑有助於提升 ASR 對口音識別的精確度,不過,部分行業人士及科學家並不是故意要煽動社會與人工智慧的對立,他們更想呼籲外界重視一個問題:語音數據集代表性的不足,反映出隱藏在背後的社會經濟地位偏見。在這個領域還是會隱約感覺到有某種偏好:喜歡使用沒有口音及腔調自然的聲音。
例如,「一個典型的美國聲音資料庫將缺乏貧窮、未受過教育、農村、非白人、非以英文為母語的聲音。而缺少的群體往往是一般被邊緣化的群體,」Rachael Tatman 先前接受《連線》採訪時直言。
除此之外,視頻網站 YouTube 使用谷歌的語音識別系統,自動為影片創建字幕,結果發現系統遇到女性、帶有南方或蘇格蘭口音的人時,生成字幕的水準就會明顯下降。儘管大家都知道這不是機器的錯,但這種尷尬的情況往往讓人感到不適。
技術本來就是中性,不會歧視人,智能語音助理也沒有隻偏愛服務高富帥、白富美,一切都在於訓練過程。這陣子人工智慧領域談論很多關於數據偏見、數據偏差的問題,是因為當初在開發系統的過程中人類沒有意識到數據公平性及多元性的問題,導致訓練出來的模型不夠精確,一但把不精確或可能不精確的系統用在判斷或決策,就可能傷害某些群體。
目前大多數的人工智慧只能識別那些它曾經聽過的內容,想要它變得更靈活,就得餵給它更多元的數據,例如不同口音的樣本。同樣的,缺乏多樣化的語音數據,最終仍會無意間導致歧視的發生,特別是當語音被視為是未來交互的主流,走入車載、智能家居等情境,但如果它聽不得懂某些群體講的話,就代表這些人將被這些技術及服務排除在外,這就完全背離了人工智慧普及化、人工智慧應為所有人使用的初衷,這將是大眾不願見到,也是科學家認為所有人必須警覺的觀點。
Mozilla 號召全球「獻聲」,齊力打破壟斷
儘管有人認為,把語音助理不懂辨識帶有口音的指令上升為歧視問題,根本就是小題大做。不過,換一個角度想,現今企業往往強調用戶至上,當公司推出某樣產品本該就以「用戶體驗」為主要考量,當講話有口音的人買了一個智能音箱回家,卻感到挫折或失望,自然就會完全遠離這個產品,甚至是這家公司。因此就算站在商業利益的角度,解決帶口音的語音識別,是開發智能助手、智能音箱的公司必須著手解決的問題。
儘管不少企業意識到口音識別的問題,但礙於商業考量,多半不願意將資源公開,值得慶幸的是,開源世界已經先行,以開源而生、打造瀏覽器 Firefox 和諸多開源工具的 Mozilla,在去年 7 月宣布了一項最大開源語音募集專案—同聲計劃(Common Voice),希望建立一個開放且公開的語音數據集,每個人都可以使用它來訓練語音應用程序,以打破目前 ASR 技術被 Google、亞馬遜等巨頭壟斷的現況,同時 Common Voice 另一大目標就是收集儘可能多的不同口音,以便計算機能夠更好地理解每個人。
圖|Mozilla 號招全球貢獻自己的語言及口音
Mozilla 指出,要訓練一個聲音轉文字(STT,Speech To Text)模型大約需要 1 萬小時的聲音數據,為了加快收集聲音數據的進度,希望利用開源社區的美德,也就是群眾力量,鼓勵大家「獻聲」,捐贈聲音,並製作了一個專屬網頁,點開「捐贈聲音」的按鈕後,網友就念出網頁上顯示的句子,只要協助錄音的人越多,就能記錄越多句子,這套系統也就能越準確,希望全球開源者能夠貢獻自己的語言以及當地口音,目前在上頭已經搜集了非常多種語言,除了德語、法語、英文這種常見的語言外,還有加泰隆語、卡拜爾語、韃靼語等超過 40 種語言。
Mozilla 首席創新官 Katharina Borchert 先前在博客上表示:「語音介面是互聯網的下一個前沿...... 我們認為這些介面不應該被少數公司控制,我們希望用戶可以是在基於自己的語言和口音的情境下被識別和理解。」
圖|Mozilla 首席創新官 Katharina Borchert 在博客發文
今年早些時候,DT 君和一位初創公司的創始人聊到了前述 Comcast 聽不懂我說的英文的趣事,還記得他開玩笑的說,因為聽不懂帶口音的英文,Google 和亞馬遜未來很可能會被用戶控告歧視,美國律師也可以開始用這打廣告了。由於美國擁有眾多的移民族群,對於可能涉及或暗指種族歧視的言論、行為都得相當留心,當時的一番玩笑話,現在聽起來,可以是給 Google、亞馬遜、蘋果及微軟的忠告。
※俄羅斯太空墳場:從墜落的宇宙飛船中拾荒
※人工智慧的進化門檻在於肉身
TAG:利維坦 |