上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

新聞 06-24

更多精彩，敬請關注矽谷洞察官方網站（http://www.svinsight.com）

近年來，隨著亞馬遜、Google、蘋果，到國內的阿里巴巴、百度、京東等在語音驅動設備（voice-first devices）領域的頻繁發力，智能語音的發展速度驚人。隨著 Airpods、智能手機等語音設備的持續增加，用語音控制設備不僅逐漸成為主流、還會成為類似於搜索引擎之於 PC、超級 app 之於移動互聯網的新一代超級入口。

在這種趨勢下，人們對播客（podcast）、有聲書等語音內容的需求也日益增加。但長期以來，語音內容生產者一直要面對一個問題：語音內容的編輯，與文字相比，是件耗時又費力的事情。

由加州大學伯克利分校孵化器 SkyDeck 孵化的語音編輯軟體公司 Spext，正是想解決這個問題。他們打算如何簡化聲音內容的編輯？為此，矽谷洞察獨家專訪了 Spext 的 CEO Anup Gosavi。

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

音頻節目：發展飛速、編輯速度龜速

目前在美國，兩種音頻節目形式最常見：播客，以及有聲書。據估計，目前在 iTunes 上，有70 多萬個 podcast 頻道、4200 萬集節目。同時，有聲書也在快速發展：Anup 告訴矽谷洞察，去年美國出版了 8 萬多本有聲書，今年這個數字預計會增長 40%。

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

（從2011年到2018年，美國成年人過去12個月內收聽過有聲書的人比例攀升。圖自皮尤研究中心）

Anup 也有聽播客的習慣，他自己就是一位已經有十年「聽齡」的老聽眾了。正因如此，他意識到播客的一個問題：播客以聲音為媒介，這種形式使得其中很多精彩內容沒有辦法被記錄、被索引。換句話說，我們現在在 Google、百度之類的搜索引擎上，能輕易搜到文字，甚至能以圖搜圖，但播客里的內容卻很難搜到。

以聲音為媒介的內容，到底有沒有可能也能被索引呢？Anup 開始與播客創作者們交談。他發現，其實想要製作音頻內容的人不少，但目前音頻播客內容所用到的專業音頻編輯軟體很難上手、對新人門檻比較大，而且編輯起來也非常耗費時間。

Anup 告訴矽谷洞察，目前內容創建者大多使用 Audacity 和 Garageband 這兩款音頻波形編輯軟體，其中 Audacity 更為主流。

音頻波形編輯軟體長這樣：

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

（Adobe Audition 界面）

圖裡六條形狀各異的波浪線，每條都是一條音軌。編輯在剪輯音頻時，由於不可能從這上上下下起起伏伏的波浪線里「讀」出內容，只好通過一遍遍反覆播放的辦法，把文字信息和「波浪線」對應上，從而完成刪減、增補等編輯。

而 Audacity 和 Garageband 這兩款軟體之所以比較主流，除了因為是免費軟體（不少蘋果產品往往自帶這種音頻編輯軟體），還因為它們與 Adobe Audition 這種更為專業複雜、使用門檻更高的音頻編輯軟體相比，這兩款音頻編輯軟體使用相對簡單、更好上手。

除了要解決上手困難的問題，目前音頻波形編輯軟體還有另外一個挑戰：用起來很費時間。Anup 透露，目前每產生 1 小時的編輯完畢、可以播出的內容，背後就需要 7~8 小時的編輯、修改、把音頻整理成文字稿的時間—— 這還是業務熟練的專業人員，對於新手及業餘愛好者來說，所需時間只會更長。

讓編輯音頻像編輯文字一樣容易

為了解決這個問題，Anup 決定成立 Spext。Spext 用 AI 技術，通過簡化自動轉錄、語音編輯、聲音合成等語音編輯任務，為音頻內容製造者極大量節省時間。

從使用界面上來說，Spext 和傳統的音頻編輯軟體長得就很不一樣。與傳統音頻軟體的波浪線不同，Spext 的產品「聲音編輯器」（「Editor」）不僅把音頻直接轉譯成文字，而且還能讓用戶通過編輯文字，直接編輯音頻。用 Anup 的話說，Spext 的產品「看起來像是用於音頻編輯的 Google 文檔」。

我們以喬布斯的一段音頻為例。在這段音頻開始的地方，他說，「Hi（長停頓），for those of you that don』t know me, my name is Steve Jobs」（嗨，【長停頓】，你們中可能有些人不認識我，我的名字叫史蒂夫?喬布斯）。

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

（圖自 Spext）

如果用戶想把「嗨」後面的長停頓、和「你們中可能有些人不認識我」這種沒什麼信息量的語句刪掉，只需把這句話選中，直接刪除即可，其背後對應的音頻也會準確地把這個部分刪除。而如果用傳統音頻軟體編輯的話，哪裡是「嗨」、哪裡是停頓的開頭結尾，都要找半天。

目前「聲音編輯器」已進入公測階段，用戶可以在音頻中把空白錄音、「呃」、「嗯」之類的刪減掉，也可以重新排列句子與句子之間的順序。幾周內，Spext 將推出其產品的最新版本，也是首個商業版本，用戶將可以添加音樂、背景聲等聲效。

更簡單的流程自然也給編輯們省了很多時間。Anup 透露說，Spext 產品的測試用戶反饋說，Spext 足足幫他們節省了約 80％的編輯時間！

讓音頻製作不僅省時、更省事

除了省時間，Spext 還能讓音頻編輯更「省事」：比如，如果音頻里的人發生口誤，音頻編輯可以直接看著 Spext 根據音頻整理出的文字，直接替換文字，打出正確的詞，然後 Spext 的「聲音合成器（synthetic media）」功能，就能自動生成以那個人的聲音說的、被修改過的沒有口誤的那句話。

當然，目前這個功能還不支持大段大段的語音生成，只支持少數詞語的替換，但這也已經帶來了很多便利，比如就不用因為口誤而叫人家重回錄音棚錄音了。

我們再回到喬布斯的例子：假設編輯想把「hi」替換成「hello」，只需刪去 hi，敲入 hello，Spext 就能生成足以以假亂真的、喬幫主聲音的 Hello，替換在音頻里基本沒有違和感。

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

（圖自 Spext）

Spext 使用的技術之一是「聲音與文字對齊」（aligning the spoken words and text）。為了讓機器學會自動把聲音與字句對齊，Spext 利用深度學習技術運行該對齊演算法。編輯音頻時，為了讓聲音聽起來真實自然、字、詞、句子之間的剪切與過渡聽起來不突兀，聲音和文字必須「嚴絲合縫」地準確對齊。

為了做到嚴絲合縫地對齊，Spext 對字與詞進行精確切割。到底有多精確呢？以最簡單的 hello 為例，hello 由不同音節組成，別看詞很短、讀起來很快，為確保聲音精度，Spext 把每個詞都切割到了 1 微秒的精細度。假設 hello 發音 0.5 秒，這就意味著 Spext 要把它切割成 50 萬份，精度可想而知。精度越細，在合成一個詞、添加或刪減內容時、聲音聽起來也就越準確自然。

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

（Gif 自 Spext）

別看「讓機器自動把音頻和文字準確對齊」聽著簡單，其實在技術上很有挑戰。Anup 解釋說，這是因為它對音頻工程（audio engineering）、機器學習，以及產品設計的要求都很高。

比如我們剛才說的「把一個詞切成無數個小部分」，並不是切割完畢後就大功告成，機器還需要學習處理一系列可能的複雜情況。比如，每一微秒的聲音都有順序、有編號，在刪除或添加聲音時，這些號就會改變，而系統如何保證順序正確、不弄亂，就是不小的挑戰。

就像現在已經能造出以假亂真的圖片和視頻一樣，聲音也能以假亂真。如何防止這種技術被惡意利用，就成了難題。Anup 介紹道，防止惡意篡改，正是 Spext 目前的工作重點之一。Spext 給出的解決方案是聲音認證（audio authentication）。

就像天下沒有相同的指紋一樣，我們每個人的聲音也非常獨特 —— 特別是在機器的「耳朵」里，每人的聲音都有獨特 ID。Anup 打了個比方：現在我們可以在手機上通過 face ID 之類的技術「刷臉」購物。在你下單之前，iPhone 先要確保你的身份。Spext 的聲音 ID 也是同樣道理：當你錄音完畢後，想再用同樣聲音修改內容、然後放到網上，也需要進行聲音認證。

而 Spext 為此需要解決的技術挑戰，就是其需要不斷提高聲音識別的準確率：只有準確率提高了，才能更精準地識別不同人的聲音。

同時，編輯在對音頻內容作出修改時，需要編輯及聲音的「原主人」雙方許可後，才能修改內容。

「你可以把它想像成 DocuSign。你在你那邊先認證音頻的真實性，再把它發給我進行認證。只有雙方都點頭後，才能完成修改，避免用自動生成器惡意篡改內容。」

當然，如果對內容有爭議，還可以用最簡單的辦法：找回誰也沒編輯過的原始錄音，有聲有真相。

不過 Anup 說，目前聲音合成器功能暫不公開，Spext 計劃在能更好地進行身份驗證後，再啟動該功能，以避免此產品被用於惡意目的。

讓更多人能講故事

不論是「Alexa」，還是「Hey Google」，越來越多的智能設備以聲音驅動，已經成了一股非常明顯的潮流。但其實除了潮流本身，人類對於講故事、分享經歷、聽故事的需求從來就非常旺盛。

一個有趣的事實是，二十世紀五十年代初，歐美國家電視逐漸普及，不少人當時信誓旦旦地預言說，廣播這種「聽得見、看不見」的媒體，將會很快被淘汰。這個預言顯然是錯的，直到今天，廣播電台依然紅火。

與視頻相比，音頻內容更隨意，而且...還有那麼一絲親密感。在攝像機面前，你得穿得好看、背景要好看、角度燈光... 但音頻對環境（和長相）的要求低了很多，在很多地方都可以錄音，而聽者也覺得像是在和主持人談天說地、親密交流。正因如此，人們對音頻內容的需求隨著技術的進步，反而有增無減。

「我們的用戶主要是播客、有聲書的內容創造者。我們會先關注播客、之後擴展到有聲讀物出版商。」 Anup 說。

為了鼓勵更多人發出自己的聲音、講出自己的故事，Spext 還專門開了博客，教那些想要開自己播客頻道的人一些技巧，比如如何吸引觀眾。此外 Spext 也從新聞學校打開市場，比如伯克利新聞學院的學生們，就給了 Spext 很多反饋。

「除了播客、有聲書、和新聞學院的學生，另一類潛在客戶是企業。」 Anup 補充道，「越來越多的企業想用口述歷史的形式講述其公司的歷史，比如他們經歷了哪些關鍵時刻、他們的重要策略都是如何制定出來的...作為其宣傳的一部分。這很出乎我們意料。」

上下班路上聽點啥好？這家公司或能豐富你的通勤時光 | 矽谷洞察

（外媒文章：「時尚品牌為何紛紛開播客」）

目前作為創業公司的 Spext 還只支持英文，不過 Anup 在採訪尾聲時提到，Spext 非常希望未來能擴張到印度、中國這兩個人口巨大的市場。當然，中國和印度都有很多方言和口音，想想 Spext 或許未來有天要努力「聽懂」溫州話、閩南語之類的方言，也真是 real 不容易... 估計這也會成為 Spext 未來不小的挑戰。

更多精彩，敬請關注矽谷洞察官方網站（http://www.svinsight.com）

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 矽谷密探 的精彩文章:

※中國是單車「墳場」，美國共享單車竟風生水起？| 矽谷洞察
※關於Facebook發幣的7個問題，專家都是怎麼說的？

TAG:矽谷密探 |