當前位置:
首頁 > 科技 > Google解釋Pixel手機錄音程序背後的語音轉文本技術

Google解釋Pixel手機錄音程序背後的語音轉文本技術

Google之前就推出適用於Pixel手機的新型錄音應用程序Recorder,這個錄音程序不只可以將語音轉譯成文本,還可以可視化地顯示聲音類型的分類,另外,在錄音結束用戶要輸入標題時,Recorder也會提供建議標籤。這些功能,都是Google應用設備上機器學習技術開發,現在披露了背後的細節。

將語音轉錄成文本的功能,其應用的技術在早前就已經趨於成熟,Recorder可以使用設備上自動語音識別模型,即時地轉譯語音,Google提到,除了增加模型穩定度,使其能可靠地轉錄數小時的錄音之外,他們還將單詞對應到時間戳以索引對話,用戶可以點擊轉錄出來的單詞,並且從對應時間點開始播放錄音,用戶也能搜索單詞,並精確地跳到錄音提到該單詞的時間點。

雖然顯示錄音的文本記錄,可讓用戶搜索特定單詞,但Google提到,以可視化標示特定時刻或是聲音的錄音段落,對於長時間的錄音來說,用戶能更容易進行搜索。因此Recorder會將聲音以波型表現,並且用不同顏色來表示不同的聲音類型,像是狗叫聲或是樂器演奏就會以不同的顏色區分。

實際情況通常是同一個時間點,Recorder可能會錄到多種聲音,Google會將波型以最具代表性的聲音顏色著色。Recorder識別聲音類型的方法,會偵測部分重疊的960微秒聲音音框(Frame),來判斷50微秒區間的聲音類型,Google提到,以較小50微秒偏移量分析處理960微秒窗口中的內容,不容易出錯且能精確的找出窗口開始時間與結束時間。

另外,當音頻錄製完成之後,Recorder會挑選最具記憶性的內容作為建議標籤,用戶可以快速地應用這些標籤撰寫成標題。而為了能夠在音頻錄製結束之後,馬上能夠提供建議標籤,Recorder在轉錄音頻的時候,便會即時進行分析。

Recorder會計算單詞出現的次數以及在句子中的語法作用,並且大寫專有名詞,接著會使用詞性標記程序,這是一個根據句子文法標記每個單詞的模型,來偵測用戶更容易記住的一般名詞與專有名詞,Recorder以對話數據以及字詞頻率和特性等文本特徵訓練決策樹,計算單詞和雙字詞分數,在濾掉禁用詞與髒話,最後輸出前三名的結果。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!


請您繼續閱讀更多來自 十輪網 的精彩文章:

Spotify:今年播客聽眾增長50%
被AlphaGo打敗的韓國棋王引退:打不過AI萌生退意