上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察
更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)
近年來,隨著亞馬遜、Google、蘋果,到國內的阿里巴巴、百度、京東等在語音驅動設備(voice-first devices)領域的頻繁發力,智能語音的發展速度驚人。隨著 Airpods、智能手機等語音設備的持續增加,用語音控制設備不僅逐漸成為主流、還會成為類似於搜索引擎之於 PC、超級 app 之於移動互聯網的新一代超級入口。
在這種趨勢下,人們對播客(podcast)、有聲書等語音內容的需求也日益增加。但長期以來,語音內容生產者一直要面對一個問題:語音內容的編輯,與文字相比,是件耗時又費力的事情。
由加州大學伯克利分校孵化器 SkyDeck 孵化的語音編輯軟體公司 Spext,正是想解決這個問題。他們打算如何簡化聲音內容的編輯?為此,矽谷洞察獨家專訪了 Spext 的 CEO Anup Gosavi。
音頻節目:發展飛速、編輯速度龜速
目前在美國,兩種音頻節目形式最常見:播客,以及有聲書。據估計,目前在 iTunes 上,有70 多萬個 podcast 頻道、4200 萬集節目。同時,有聲書也在快速發展:Anup 告訴矽谷洞察,去年美國出版了 8 萬多本有聲書,今年這個數字預計會增長 40%。
(從2011年到2018年,美國成年人過去12個月內收聽過有聲書的人比例攀升。圖自皮尤研究中心)
Anup 也有聽播客的習慣,他自己就是一位已經有十年 「聽齡」 的老聽眾了。正因如此,他意識到播客的一個問題:播客以聲音為媒介,這種形式使得其中很多精彩內容沒有辦法被記錄、被索引。換句話說,我們現在在 Google、百度之類的搜索引擎上,能輕易搜到文字,甚至能以圖搜圖,但播客里的內容卻很難搜到。
以聲音為媒介的內容,到底有沒有可能也能被索引呢?Anup 開始與播客創作者們交談。他發現,其實想要製作音頻內容的人不少,但目前音頻播客內容所用到的專業音頻編輯軟體很難上手、對新人門檻比較大,而且編輯起來也非常耗費時間。
Anup 告訴矽谷洞察,目前內容創建者大多使用 Audacity 和 Garageband 這兩款音頻波形編輯軟體,其中 Audacity 更為主流。
音頻波形編輯軟體長這樣:
(Adobe Audition 界面)
圖裡六條形狀各異的波浪線,每條都是一條音軌。編輯在剪輯音頻時,由於不可能從這上上下下起起伏伏的波浪線里 「讀」 出內容,只好通過一遍遍反覆播放的辦法,把文字信息和 「波浪線」 對應上,從而完成刪減、增補等編輯。
而 Audacity 和 Garageband 這兩款軟體之所以比較主流,除了因為是免費軟體(不少蘋果產品往往自帶這種音頻編輯軟體),還因為它們與 Adobe Audition 這種更為專業複雜、使用門檻更高的音頻編輯軟體相比,這兩款音頻編輯軟體使用相對簡單、更好上手。
除了要解決上手困難的問題,目前音頻波形編輯軟體還有另外一個挑戰:用起來很費時間。Anup 透露,目前每產生 1 小時的編輯完畢、可以播出的內容,背後就需要 7~8 小時的編輯、修改、把音頻整理成文字稿的時間—— 這還是業務熟練的專業人員,對於新手及業餘愛好者來說,所需時間只會更長。
讓編輯音頻像編輯文字一樣容易
為了解決這個問題,Anup 決定成立 Spext。Spext 用 AI 技術,通過簡化自動轉錄、語音編輯、聲音合成等語音編輯任務,為音頻內容製造者極大量節省時間。
從使用界面上來說,Spext 和傳統的音頻編輯軟體長得就很不一樣。與傳統音頻軟體的波浪線不同,Spext 的產品 「聲音編輯器」(「Editor」)不僅把音頻直接轉譯成文字, 而且還能讓用戶通過編輯文字,直接編輯音頻。用 Anup 的話說,Spext 的產品 「看起來像是用於音頻編輯的 Google 文檔」。
我們以喬布斯的一段音頻為例。在這段音頻開始的地方,他說,「Hi(長停頓),for those of you that don』t know me, my name is Steve Jobs」(嗨,【長停頓】,你們中可能有些人不認識我,我的名字叫史蒂夫?喬布斯)。
(圖自 Spext)
如果用戶想把 「嗨」 後面的長停頓、和 「你們中可能有些人不認識我」 這種沒什麼信息量的語句刪掉,只需把這句話選中,直接刪除即可,其背後對應的音頻也會準確地把這個部分刪除。而如果用傳統音頻軟體編輯的話,哪裡是 「嗨」、哪裡是停頓的開頭結尾,都要找半天。
目前 「聲音編輯器」 已進入公測階段,用戶可以在音頻中把空白錄音、「呃」、「嗯」 之類的刪減掉,也可以重新排列句子與句子之間的順序。幾周內,Spext 將推出其產品的最新版本,也是首個商業版本,用戶將可以添加音樂、背景聲等聲效。
更簡單的流程自然也給編輯們省了很多時間。Anup 透露說,Spext 產品的測試用戶反饋說,Spext 足足幫他們節省了約 80% 的編輯時間!
讓音頻製作不僅省時、更省事
除了省時間,Spext 還能讓音頻編輯更 「省事」:比如,如果音頻里的人發生口誤,音頻編輯可以直接看著 Spext 根據音頻整理出的文字,直接替換文字,打出正確的詞,然後 Spext 的「聲音合成器(synthetic media)」 功能,就能自動生成以那個人的聲音說的、被修改過的沒有口誤的那句話。
當然,目前這個功能還不支持大段大段的語音生成,只支持少數詞語的替換,但這也已經帶來了很多便利,比如就不用因為口誤而叫人家重回錄音棚錄音了。
我們再回到喬布斯的例子:假設編輯想把 「hi」 替換成 「hello」,只需刪去 hi,敲入 hello,Spext 就能生成足以以假亂真的、喬幫主聲音的 Hello,替換在音頻里基本沒有違和感。
(圖自 Spext)
Spext 使用的技術之一是 「聲音與文字對齊」 (aligning the spoken words and text)。為了讓機器學會自動把聲音與字句對齊,Spext 利用深度學習技術運行該對齊演算法。編輯音頻時,為了讓聲音聽起來真實自然、字、詞、句子之間的剪切與過渡聽起來不突兀,聲音和文字必須「嚴絲合縫」 地準確對齊。
為了做到嚴絲合縫地對齊,Spext 對字與詞進行精確切割。到底有多精確呢?以最簡單的 hello 為例,hello 由不同音節組成,別看詞很短、讀起來很快,為確保聲音精度,Spext 把每個詞都切割到了 1 微秒的精細度。假設 hello 發音 0.5 秒,這就意味著 Spext 要把它切割成 50 萬份,精度可想而知。精度越細,在合成一個詞、添加或刪減內容時、聲音聽起來也就越準確自然。
(Gif 自 Spext)
別看 「讓機器自動把音頻和文字準確對齊」 聽著簡單,其實在技術上很有挑戰。Anup 解釋說,這是因為它對音頻工程(audio engineering)、機器學習,以及產品設計的要求都很高。
比如我們剛才說的 「把一個詞切成無數個小部分」,並不是切割完畢後就大功告成,機器還需要學習處理一系列可能的複雜情況。比如,每一微秒的聲音都有順序、有編號,在刪除或添加聲音時,這些號就會改變,而系統如何保證順序正確、不弄亂,就是不小的挑戰。
就像現在已經能造出以假亂真的圖片和視頻一樣,聲音也能以假亂真。如何防止這種技術被惡意利用,就成了難題。Anup 介紹道,防止惡意篡改,正是 Spext 目前的工作重點之一。Spext 給出的解決方案是聲音認證(audio authentication)。
就像天下沒有相同的指紋一樣,我們每個人的聲音也非常獨特 —— 特別是在機器的 「耳朵」 里,每人的聲音都有獨特 ID。Anup 打了個比方:現在我們可以在手機上通過 face ID 之類的技術 「刷臉」 購物。在你下單之前,iPhone 先要確保你的身份。Spext 的聲音 ID 也是同樣道理:當你錄音完畢後,想再用同樣聲音修改內容、然後放到網上,也需要進行聲音認證。
而 Spext 為此需要解決的技術挑戰,就是其需要不斷提高聲音識別的準確率:只有準確率提高了,才能更精準地識別不同人的聲音。
同時,編輯在對音頻內容作出修改時,需要編輯及聲音的 「原主人」 雙方許可後,才能修改內容。
「你可以把它想像成 DocuSign。你在你那邊先認證音頻的真實性,再把它發給我進行認證。只有雙方都點頭後,才能完成修改,避免用自動生成器惡意篡改內容。」
當然,如果對內容有爭議,還可以用最簡單的辦法:找回誰也沒編輯過的原始錄音,有聲有真相。
不過 Anup 說,目前聲音合成器功能暫不公開,Spext 計劃在能更好地進行身份驗證後,再啟動該功能,以避免此產品被用於惡意目的。
讓更多人能講故事
不論是 「Alexa」,還是 「Hey Google」,越來越多的智能設備以聲音驅動,已經成了一股非常明顯的潮流。但其實除了潮流本身,人類對於講故事、分享經歷、聽故事的需求從來就非常旺盛。
一個有趣的事實是,二十世紀五十年代初,歐美國家電視逐漸普及,不少人當時信誓旦旦地預言說,廣播這種 「聽得見、看不見」 的媒體,將會很快被淘汰。這個預言顯然是錯的,直到今天,廣播電台依然紅火。
與視頻相比,音頻內容更隨意,而且...還有那麼一絲親密感。在攝像機面前,你得穿得好看、背景要好看、角度燈光... 但音頻對環境(和長相)的要求低了很多,在很多地方都可以錄音,而聽者也覺得像是在和主持人談天說地、親密交流。正因如此,人們對音頻內容的需求隨著技術的進步,反而有增無減。
「我們的用戶主要是播客、有聲書的內容創造者。我們會先關注播客、之後擴展到有聲讀物出版商。」 Anup 說。
為了鼓勵更多人發出自己的聲音、講出自己的故事,Spext 還專門開了博客,教那些想要開自己 播客頻道的人一些技巧,比如如何吸引觀眾。此外 Spext 也從新聞學校打開市場,比如伯克利新聞學院的學生們,就給了 Spext 很多反饋。
「除了播客、有聲書、和新聞學院的學生,另一類潛在客戶是企業。」 Anup 補充道,「越來越多的企業想用口述歷史的形式講述其公司的歷史,比如他們經歷了哪些關鍵時刻、他們的重要策略都是如何制定出來的...作為其宣傳的一部分。這很出乎我們意料。」
(外媒文章:「時尚品牌為何紛紛開播客」)
目前作為創業公司的 Spext 還只支持英文,不過 Anup 在採訪尾聲時提到,Spext 非常希望未來能擴張到印度、中國這兩個人口巨大的市場。當然,中國和印度都有很多方言和口音,想想 Spext 或許未來有天要努力 「聽懂」 溫州話、閩南語之類的方言,也真是 real 不容易... 估計這也會成為 Spext 未來不小的挑戰。
更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)
※中國是單車「墳場」,美國共享單車竟風生水起?| 矽谷洞察
※關於Facebook發幣的7個問題,專家都是怎麼說的?
TAG:矽谷密探 |