當前位置:
首頁 > 新聞 > 上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

近年來,隨著亞馬遜、Google、蘋果,到國內的阿里巴巴、百度、京東等在語音驅動設備(voice-first devices)領域的頻繁發力,智能語音的發展速度驚人。隨著 Airpods、智能手機等語音設備的持續增加,用語音控制設備不僅逐漸成為主流、還會成為類似於搜索引擎之於 PC、超級 app 之於移動互聯網的新一代超級入口。

在這種趨勢下,人們對播客(podcast)、有聲書等語音內容的需求也日益增加。但長期以來,語音內容生產者一直要面對一個問題:語音內容的編輯,與文字相比,是件耗時又費力的事情。

由加州大學伯克利分校孵化器 SkyDeck 孵化的語音編輯軟體公司 Spext,正是想解決這個問題。他們打算如何簡化聲音內容的編輯?為此,矽谷洞察獨家專訪了 Spext 的 CEO Anup Gosavi。

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

音頻節目:發展飛速、編輯速度龜速

目前在美國,兩種音頻節目形式最常見:播客,以及有聲書。據估計,目前在 iTunes 上,有70 多萬個 podcast 頻道、4200 萬集節目。同時,有聲書也在快速發展:Anup 告訴矽谷洞察,去年美國出版了 8 萬多本有聲書,今年這個數字預計會增長 40%。

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

(從2011年到2018年,美國成年人過去12個月內收聽過有聲書的人比例攀升。圖自皮尤研究中心)

Anup 也有聽播客的習慣,他自己就是一位已經有十年 「聽齡」 的老聽眾了。正因如此,他意識到播客的一個問題:播客以聲音為媒介,這種形式使得其中很多精彩內容沒有辦法被記錄、被索引。換句話說,我們現在在 Google、百度之類的搜索引擎上,能輕易搜到文字,甚至能以圖搜圖,但播客里的內容卻很難搜到。

以聲音為媒介的內容,到底有沒有可能也能被索引呢?Anup 開始與播客創作者們交談。他發現,其實想要製作音頻內容的人不少,但目前音頻播客內容所用到的專業音頻編輯軟體很難上手、對新人門檻比較大,而且編輯起來也非常耗費時間。

Anup 告訴矽谷洞察,目前內容創建者大多使用 Audacity 和 Garageband 這兩款音頻波形編輯軟體,其中 Audacity 更為主流。

音頻波形編輯軟體長這樣:

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

(Adobe Audition 界面)

圖裡六條形狀各異的波浪線,每條都是一條音軌。編輯在剪輯音頻時,由於不可能從這上上下下起起伏伏的波浪線里 「讀」 出內容,只好通過一遍遍反覆播放的辦法,把文字信息和 「波浪線」 對應上,從而完成刪減、增補等編輯。

而 Audacity 和 Garageband 這兩款軟體之所以比較主流,除了因為是免費軟體(不少蘋果產品往往自帶這種音頻編輯軟體),還因為它們與 Adobe Audition 這種更為專業複雜、使用門檻更高的音頻編輯軟體相比,這兩款音頻編輯軟體使用相對簡單、更好上手。

除了要解決上手困難的問題,目前音頻波形編輯軟體還有另外一個挑戰:用起來很費時間。Anup 透露,目前每產生 1 小時的編輯完畢、可以播出的內容,背後就需要 7~8 小時的編輯、修改、把音頻整理成文字稿的時間—— 這還是業務熟練的專業人員,對於新手及業餘愛好者來說,所需時間只會更長。

讓編輯音頻像編輯文字一樣容易

為了解決這個問題,Anup 決定成立 Spext。Spext 用 AI 技術,通過簡化自動轉錄、語音編輯、聲音合成等語音編輯任務,為音頻內容製造者極大量節省時間。

從使用界面上來說,Spext 和傳統的音頻編輯軟體長得就很不一樣。與傳統音頻軟體的波浪線不同,Spext 的產品 「聲音編輯器」(「Editor」)不僅把音頻直接轉譯成文字, 而且還能讓用戶通過編輯文字,直接編輯音頻。用 Anup 的話說,Spext 的產品 「看起來像是用於音頻編輯的 Google 文檔」。

我們以喬布斯的一段音頻為例。在這段音頻開始的地方,他說,「Hi(長停頓),for those of you that don』t know me, my name is Steve Jobs」(嗨,【長停頓】,你們中可能有些人不認識我,我的名字叫史蒂夫?喬布斯)。

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

(圖自 Spext)

如果用戶想把 「嗨」 後面的長停頓、和 「你們中可能有些人不認識我」 這種沒什麼信息量的語句刪掉,只需把這句話選中,直接刪除即可,其背後對應的音頻也會準確地把這個部分刪除。而如果用傳統音頻軟體編輯的話,哪裡是 「嗨」、哪裡是停頓的開頭結尾,都要找半天。

目前 「聲音編輯器」 已進入公測階段,用戶可以在音頻中把空白錄音、「呃」、「嗯」 之類的刪減掉,也可以重新排列句子與句子之間的順序。幾周內,Spext 將推出其產品的最新版本,也是首個商業版本,用戶將可以添加音樂、背景聲等聲效。

更簡單的流程自然也給編輯們省了很多時間。Anup 透露說,Spext 產品的測試用戶反饋說,Spext 足足幫他們節省了約 80% 的編輯時間!

讓音頻製作不僅省時、更省事

除了省時間,Spext 還能讓音頻編輯更 「省事」:比如,如果音頻里的人發生口誤,音頻編輯可以直接看著 Spext 根據音頻整理出的文字,直接替換文字,打出正確的詞,然後 Spext 的「聲音合成器(synthetic media)」 功能,就能自動生成以那個人的聲音說的、被修改過的沒有口誤的那句話。

當然,目前這個功能還不支持大段大段的語音生成,只支持少數詞語的替換,但這也已經帶來了很多便利,比如就不用因為口誤而叫人家重回錄音棚錄音了。

我們再回到喬布斯的例子:假設編輯想把 「hi」 替換成 「hello」,只需刪去 hi,敲入 hello,Spext 就能生成足以以假亂真的、喬幫主聲音的 Hello,替換在音頻里基本沒有違和感。

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

(圖自 Spext)

Spext 使用的技術之一是 「聲音與文字對齊」 (aligning the spoken words and text)。為了讓機器學會自動把聲音與字句對齊,Spext 利用深度學習技術運行該對齊演算法。編輯音頻時,為了讓聲音聽起來真實自然、字、詞、句子之間的剪切與過渡聽起來不突兀,聲音和文字必須「嚴絲合縫」 地準確對齊。

為了做到嚴絲合縫地對齊,Spext 對字與詞進行精確切割。到底有多精確呢?以最簡單的 hello 為例,hello 由不同音節組成,別看詞很短、讀起來很快,為確保聲音精度,Spext 把每個詞都切割到了 1 微秒的精細度。假設 hello 發音 0.5 秒,這就意味著 Spext 要把它切割成 50 萬份,精度可想而知。精度越細,在合成一個詞、添加或刪減內容時、聲音聽起來也就越準確自然。

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

(Gif 自 Spext)

別看 「讓機器自動把音頻和文字準確對齊」 聽著簡單,其實在技術上很有挑戰。Anup 解釋說,這是因為它對音頻工程(audio engineering)、機器學習,以及產品設計的要求都很高。

比如我們剛才說的 「把一個詞切成無數個小部分」,並不是切割完畢後就大功告成,機器還需要學習處理一系列可能的複雜情況。比如,每一微秒的聲音都有順序、有編號,在刪除或添加聲音時,這些號就會改變,而系統如何保證順序正確、不弄亂,就是不小的挑戰。

就像現在已經能造出以假亂真的圖片和視頻一樣,聲音也能以假亂真。如何防止這種技術被惡意利用,就成了難題。Anup 介紹道,防止惡意篡改,正是 Spext 目前的工作重點之一。Spext 給出的解決方案是聲音認證(audio authentication)。

就像天下沒有相同的指紋一樣,我們每個人的聲音也非常獨特 —— 特別是在機器的 「耳朵」 里,每人的聲音都有獨特 ID。Anup 打了個比方:現在我們可以在手機上通過 face ID 之類的技術 「刷臉」 購物。在你下單之前,iPhone 先要確保你的身份。Spext 的聲音 ID 也是同樣道理:當你錄音完畢後,想再用同樣聲音修改內容、然後放到網上,也需要進行聲音認證。

而 Spext 為此需要解決的技術挑戰,就是其需要不斷提高聲音識別的準確率:只有準確率提高了,才能更精準地識別不同人的聲音。

同時,編輯在對音頻內容作出修改時,需要編輯及聲音的 「原主人」 雙方許可後,才能修改內容。

「你可以把它想像成 DocuSign。你在你那邊先認證音頻的真實性,再把它發給我進行認證。只有雙方都點頭後,才能完成修改,避免用自動生成器惡意篡改內容。」

當然,如果對內容有爭議,還可以用最簡單的辦法:找回誰也沒編輯過的原始錄音,有聲有真相。

不過 Anup 說,目前聲音合成器功能暫不公開,Spext 計劃在能更好地進行身份驗證後,再啟動該功能,以避免此產品被用於惡意目的。

讓更多人能講故事

不論是 「Alexa」,還是 「Hey Google」,越來越多的智能設備以聲音驅動,已經成了一股非常明顯的潮流。但其實除了潮流本身,人類對於講故事、分享經歷、聽故事的需求從來就非常旺盛。

一個有趣的事實是,二十世紀五十年代初,歐美國家電視逐漸普及,不少人當時信誓旦旦地預言說,廣播這種 「聽得見、看不見」 的媒體,將會很快被淘汰。這個預言顯然是錯的,直到今天,廣播電台依然紅火。

與視頻相比,音頻內容更隨意,而且...還有那麼一絲親密感。在攝像機面前,你得穿得好看、背景要好看、角度燈光... 但音頻對環境(和長相)的要求低了很多,在很多地方都可以錄音,而聽者也覺得像是在和主持人談天說地、親密交流。正因如此,人們對音頻內容的需求隨著技術的進步,反而有增無減。

「我們的用戶主要是播客、有聲書的內容創造者。我們會先關注播客、之後擴展到有聲讀物出版商。」 Anup 說。

為了鼓勵更多人發出自己的聲音、講出自己的故事,Spext 還專門開了博客,教那些想要開自己 播客頻道的人一些技巧,比如如何吸引觀眾。此外 Spext 也從新聞學校打開市場,比如伯克利新聞學院的學生們,就給了 Spext 很多反饋。

除了播客、有聲書、和新聞學院的學生,另一類潛在客戶是企業。」 Anup 補充道,「越來越多的企業想用口述歷史的形式講述其公司的歷史,比如他們經歷了哪些關鍵時刻、他們的重要策略都是如何制定出來的...作為其宣傳的一部分。這很出乎我們意料。」

上下班路上聽點啥好?這家公司或能豐富你的通勤時光 | 矽谷洞察

(外媒文章:「時尚品牌為何紛紛開播客」)

目前作為創業公司的 Spext 還只支持英文,不過 Anup 在採訪尾聲時提到,Spext 非常希望未來能擴張到印度、中國這兩個人口巨大的市場。當然,中國和印度都有很多方言和口音,想想 Spext 或許未來有天要努力 「聽懂」 溫州話、閩南語之類的方言,也真是 real 不容易... 估計這也會成為 Spext 未來不小的挑戰。

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 矽谷密探 的精彩文章:

中國是單車「墳場」,美國共享單車竟風生水起?| 矽谷洞察
關於Facebook發幣的7個問題,專家都是怎麼說的?

TAG:矽谷密探 |