Google解釋Pixel手機錄音程序背後的語音轉文本技術

科技 12-24

Google之前就推出適用於Pixel手機的新型錄音應用程序Recorder，這個錄音程序不只可以將語音轉譯成文本，還可以可視化地顯示聲音類型的分類，另外，在錄音結束用戶要輸入標題時，Recorder也會提供建議標籤。這些功能，都是Google應用設備上機器學習技術開發，現在披露了背後的細節。

將語音轉錄成文本的功能，其應用的技術在早前就已經趨於成熟，Recorder可以使用設備上自動語音識別模型，即時地轉譯語音，Google提到，除了增加模型穩定度，使其能可靠地轉錄數小時的錄音之外，他們還將單詞對應到時間戳以索引對話，用戶可以點擊轉錄出來的單詞，並且從對應時間點開始播放錄音，用戶也能搜索單詞，並精確地跳到錄音提到該單詞的時間點。

雖然顯示錄音的文本記錄，可讓用戶搜索特定單詞，但Google提到，以可視化標示特定時刻或是聲音的錄音段落，對於長時間的錄音來說，用戶能更容易進行搜索。因此Recorder會將聲音以波型表現，並且用不同顏色來表示不同的聲音類型，像是狗叫聲或是樂器演奏就會以不同的顏色區分。

實際情況通常是同一個時間點，Recorder可能會錄到多種聲音，Google會將波型以最具代表性的聲音顏色著色。Recorder識別聲音類型的方法，會偵測部分重疊的960微秒聲音音框（Frame），來判斷50微秒區間的聲音類型，Google提到，以較小50微秒偏移量分析處理960微秒窗口中的內容，不容易出錯且能精確的找出窗口開始時間與結束時間。

另外，當音頻錄製完成之後，Recorder會挑選最具記憶性的內容作為建議標籤，用戶可以快速地應用這些標籤撰寫成標題。而為了能夠在音頻錄製結束之後，馬上能夠提供建議標籤，Recorder在轉錄音頻的時候，便會即時進行分析。

Recorder會計算單詞出現的次數以及在句子中的語法作用，並且大寫專有名詞，接著會使用詞性標記程序，這是一個根據句子文法標記每個單詞的模型，來偵測用戶更容易記住的一般名詞與專有名詞，Recorder以對話數據以及字詞頻率和特性等文本特徵訓練決策樹，計算單詞和雙字詞分數，在濾掉禁用詞與髒話，最後輸出前三名的結果。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 十輪網 的精彩文章:

※Spotify：今年播客聽眾增長50％
※被AlphaGo打敗的韓國棋王引退：打不過AI萌生退意