讓人機交互更富有自然情感,標貝科技推出TTS評測系統
在AI語音交互全流程中,面對語音識別、語義分析、語音合成這三座大山,我們仍然需要不忘初心,砥礪前行,以期獲得更為自然、富有情感的人機交互體驗。
中文語境下,有科大訊飛、捷通華聲等持續深耕,在語音識別、語義分析領域,發展速度較快。但是在我們跟智能設備進行互動時,回傳到耳朵里的,仍然是滿滿「機械感」,缺少情感的聲音。要解決這一問題,基礎建設是關鍵。
獵雲網近日接觸的標貝科技是一家專註於人工智慧數據服務的公司,深入有著較高技術含量的語音合成領域,潛心進行相關分析與研究。在該領域,標貝科技主要協助客戶完成發音人選擇、語料設計、語音採集、數據處理、語音深度加工等工作,產出文本數據、語音數據等數據類型。
此外,標貝科技還推出TTS評測系統等相關解決方案,為客戶提供一整套定製化的語音合成服務。據獵雲網了解,其TTS評測系統已於今日正式上線。
標貝(北京)科技有限公司簡稱標貝科技,成立於2016年2月,已獲得全國高新技術企業認定、中關村高新技術企業認定。標貝科技的總部位於北京,在長春、天津等地亦有布局,目前團隊成員50餘人。
專註語音合成的前端技術,提供定製化的語音數據服務
語音合成又稱文語轉換(Text-To-Speech),簡稱TTS,指通過機械的、電子的方法生成語音的技術。據了解,目前語音合成技術分兩種,第一種稱為拼接法。把語音裡面所有的語料基礎片段都錄好,再根據需要,利用技術手段擇取語音單元,並拼接成具體話語,這種方法需要大量的語音錄製。第二種稱為參數法。基於有限的語料數據通過參數模型訓練,合成新語段,參數法的優勢在於對錄音數量要求較少,幾千句話就能出一個合成效果。
標貝科技的創始人兼CEO劉博向獵雲網表示,「無論客戶用哪種合成技術,都離不開專業的語音數據服務,而標貝科技最核心的任務恰恰是提供優質的語音數據,讓客戶可以專心於合成技術的研發,快速實現高質量的合成系統。」
標貝科技的技術合伙人繆冠瓊進一步解釋稱,「提供優質的語音數據只是結果,其過程包括語料設計,語音採集,音字標註、韻律標註、聲韻母切分等模塊。傳統的人工標註可以說是一種勞動密集型工作,難以大規模拓展和複製。但是,通過運用基於深度學習的預處理系統,不僅可以大幅提高自動處理的正確率,還可以將其效率提升10倍以上,從而大大縮短數據加工周期。」
標貝科技有一套專業化的業務流程,大致分為語料設計、語音採集和數據處理三個環節。由於流程繁複,因此貫穿於各個環節的質量控制,便成為了標貝科技及其服務的質量保證生命線。為了讓從業者更好地認識這一操作流程,標貝科技作為定製化的語音數據服務提供商,特意製作了相關剖析,簡示如下:
語料設計:前期針對客戶需求制定不同的語料設計方案,在不同領域採用各自特定的語料。
語音採集:語音採集在整個流程當中,最為考驗細緻、經驗、耐心,其核心是對錄音質量進行把控。因為發音人在錄音棚里,進行長時間錄製時,即便是對一個音節的理解出現錯誤,都將導致最終的語音質量難以符合客戶需求。這時就需要有專人,進行全程監督,以確保源頭語音素材的高品質。
語音採集完成之後,便進入了數據處理環節:標貝科技先經過計算機程序進行預處理,再由人工操作完善。由於數據處理的工作十分複雜,完全依賴於人工標註,必然是低效且不現實的。但是,經過程序預標之後,其結果已經比較準確,因此能大大提高工作效率,從而進一步減少人工干預。
根據客戶特殊需求,標貝科技還提供ToBI和Pitch標註服務。
行業首發TTS評測系統,更有助於提升合成效果
除了提供成熟的人工智慧基礎數據服務之外,標貝科技首發TTS評測系統,並針對語音合成系統,提出了一整套的TTS前端解決方案。
標貝科技的評測系統由合成缺陷度評測和合成自然度評測兩部分組成。其中,合成缺陷度又包含韻律、多音字、數字元號及分詞詞性四個模塊,針對上述模塊進行的評測,即為TTS缺陷度評測。合成自然度評測則包括ABX和MOS評測。
韻律評測:如果再韻律層級出現預測錯誤,將直接影響句子的自然度及可懂度。此模塊以涵蓋10個領域的測試集,對TTS前端系統進行韻律處理的評測,隨後對其處理結果進行對比分析,最終將TTS前端韻律處理所發現的問題呈現給用戶,通過正確率來反映其問題所在。
多音字評測:多音字是影響句子可懂度的另一個重要因素。此模塊以涵蓋100餘個常用多音字的測試集,對TTS前端系統進行多音字處理的評測,隨後對齊處理結果進行對比分析,最終讓用戶能直觀了解並發現TTS前端多音字問題之所在。
數字元號評測:數字元號的類型多樣,常以混合方式出現在各個領域的文字中。數字元號的預測錯誤,也會對句子的理解及句意的表達產生重大影響。此模塊以涵蓋多種類型的數字、符號及組合測試集,對TTS前端系統的數字元號模塊進行評測,並呈現最終結果,從而讓用戶有針對性地去解決關鍵問題。
分詞詞性評測:分詞詞性的正確與否,會影響韻律及多音字的正確率。分詞詞性的預測錯誤,是導致韻律錯誤的主要因素之一,從而影響句子的自然度和可懂度。此模塊的測試,可以幫助客戶了解此模塊的性能,從而得到進一步改進。
ABX&MOS評測:ABX和MOS的評測,即為TTS合成自然度的評測。以代表不同的TTS用戶群體的評測人員,分別以橫向和縱向兩種不同的方式,對TTS合成系統的自然度和流暢度進行評測。其目的在於,讓用戶了解自身TTS系統的優化空間及市場競爭力。
在綜合檢測方面,標貝科技針對用戶的TTS語音,從TTS前端的文本預處理、文本分析、韻律層級預測到TTS音高、時長等聲學參數,以及聲碼器等影響語音生成的因素進行分析,查找問題源頭,提供合理建議及問題的解決方案,從而提升合成效果。
標貝科技的技術合伙人繆冠瓊,早在2002年已開始從事語音方面的研究工作,此前就職於捷通華聲、百度,曾獲得百度語音合成TTS最高獎。憑藉逾15年在語音合成領域的分析研究及工作經驗,標貝科技為用戶的語音產品做系統評測,分析出合成語音不自然的原因:可能是音庫質量不佳、數據加工的問題、前端模塊或者後期演算法的問題,通過專業的測評讓用戶快速了解自身系統關鍵問題所在及可提升空間。
除了語音合成,標貝科技的識別項目團隊,則主要提供語音採集、語音轉寫、語音標註、圖片採集、圖片標註業務。其中,語音採集包括國內方言和普通話、少數民族語言(藏維蒙)、定製化年齡語音採集(例如 兒童)、情感採集、以及國外語種(50多個國家)。目前,標貝科技已完成了數十個語音識別庫;兒童人臉(正臉90度角轉側臉方向)、道路(汽車、街景)、手寫體等圖片採集資料庫。
除了為多家知名公司提供人工智慧數據服務外,標貝科技還擁有超長自有語音庫
提及盈利模式,劉博向獵雲網透露,目前標貝科技主要提供通用型音庫和定製型音庫兩種付費服務,前者是直接向採購方提供標貝科技的自有語音庫,後者是標貝科技為企業提供定製音庫以及整體的語音解決方案。
目前,在定製型音庫方面,標貝科技已成功為用戶提供150小時中文女聲情感音庫、80小時粵語語音庫、50小時美語女聲語音庫、40小時的ToBI語音庫、40小時模仿兒童語音庫、30小時兒童語音庫、20小時巴西葡萄牙語音庫、20小時台灣普通話語音庫、20小時明星語音庫等。
此外,在TTS前端訓練集方面,15萬句韻律訓練集、15萬句分詞詞性訓練集、15萬句多音字訓練集、10萬句TN訓練集等。
標貝科技還為百度地圖提供了楊洋、韓喬生、柳岩等明星語音庫製作,包括錄音及後期的語音數據處理。此外還與騰訊、滴滴、京東、芋頭科技Rokid、暴風集團、出門問問、搜狗、Roobo機器人、喜馬拉雅FM、獵豹移動等眾多客戶,建立了長期穩定的合作關係。
值得一提的是,標貝科技在2017年9月完成了千萬級人民幣Pre-A輪融資。當我們能夠沉浸於與智能語音產品的暢聊與自然交互時,在背後默默耕耘的正是以標貝科技為代表的語音合成方案提供商。
※劉軍回歸8個月 核心團隊成軍 對標小米生態格局確立
※深度報告:2018工業互聯網紅利爆發!阿里華為等16家巨頭瓜分
TAG:智東西 |