當前位置:
首頁 > 新聞 > Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組

Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組



Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組



在國內,下載好電影后,再去字幕網站搜索外掛字幕,已經是影迷們的固有動作。這種習慣的養成,歸功於近10年來逐漸形成的野生網路字幕組,用業餘時間為影迷們貢獻了大量、快速的免費字幕。

相比國內的野生字幕組,谷歌的技術宅們在2009年為Youtube上線了一個自動字幕系統(Automatic Captioning System),藉助人工智慧技術,在視頻里實時生成字幕。時隔7年後,YouTube宣布已經有10億多條視頻採用了該系統生成的字幕,而全球日活躍用戶也達1500萬。



Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組



在Google給定的視頻中,可以在設置中選擇開啟自動字幕,之後視頻下方會隨著視頻中的人聲,逐個顯示對應字幕。另外,在字幕開啟菜單中,也有「自動翻譯」的選項,包括中文繁體、簡體在內的上百種語言均可翻譯。


Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組



此外,雷鋒網3月23日還報道過,由Accessibility、Sound Understanding和YouTube三個團隊共同完成了,通過深度神經網路(DNN)模型,在自動字幕增加音效信息的技術,進一步提升了觀眾的「看片」體驗。


其中,Google Accessibility 團隊致力於讓每個人都能夠享用互聯網帶來的便利,尤其是殘障人士,他們主要負責監控 Google 產品的無障礙狀況,協調開展無障礙培訓、測試並提供諮詢服務。Accessibility產品團隊需要接受相關培訓,以在產品的設計和發布過程中體現無障礙原則。此外他們還努力與各類用戶和致力於推廣無障礙功能的團體建立密切的關係,以便徵求反饋意見。



Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組


而Youtube的自動字幕系統,在很大程度上實現了視頻觀看的「無障礙」,尤其是聽不到聲音的聾人,也能通過自動生成的字幕進行高質量的視頻信息獲取。


Google Sound Understanding 團隊,此前曾負責AudioSet 數據集,致力於教學機器,通過建立狀態機器學習模型,生成大規模的音頻事件數據集,並定義聲音之間存在的層次關係,來準確地感知音頻。



Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組


目前,國內主流視頻網站均未推出過自動字幕系統,不過在坊間流傳著一個能夠自動生成字幕的軟體——Autosub,最初該軟體只幫助字幕組成員自動對軸,後來的更新版本調用了谷歌的API,支持自動生成字幕,不過效果不佳,此後鮮有更新。


雷鋒網還了解到,2011年《電子學報》的一篇論文稱,以《新聞聯播》為語料進行訓練,實現了音頻提取、音頻分類與切分、說話人識別、大辭彙量連續語音識別、視頻文件播放、文本字幕自動生成等功能,從而實現「全自動中文新聞字幕生成」。但此論文中並未提及是否可以做到「實時」。


這項技術的難點在於,一方面一條視頻中的聲音有很多,包括對白和混合在一起非常複雜的環境聲,要辨別哪個聲音是我們想要的,並把幾個同時產生的聲音區分開來相當不易;另一方面視頻實時字幕生成,需要在極短的時間內做出反饋,對於計算速度考驗巨大。


針對分辨聲音而言,搜狗CEO王小川就表示過,目前語音識別已經有了較高的準確度,接近實用,但還有很多的限制。比如需要安靜的環境,當有噪音的時候同時有兩個人說話機器就搞不定了。搜狗的做法是預先錄製,比如在汽車環境裡面,預先錄製發動機引擎的聲音,把沒有見過的環境變成機器能夠見過的環境,就能夠做識別。針對計算速度而言,則需要依靠硬體和演算法的進步。

現在能實現的程度,需要歸功於過去幾年間,DNN 技術、Residual/Highway 網路技術和粗粒度建模單元技術的進展。但環境音非常複雜,想要把所有的獨立聲音預先錄下來,是一項巨大的工程。即便是谷歌自動字幕系統的研究人員們,也只是選取了「鼓掌、音樂、笑聲」三種語義清楚的背景聲。


視頻之外,在語音轉文字這項技術上,國內外企業多有涉及。比如微軟幫助聾人通話實時將語音轉換為文字的RogerVoice,比如百度新近推出的SwiftScribe、再如國內企業科大訊飛等,還有各類錄音、速記應用程序,都能夠不同程度的支持語音轉文字的技術。一般來說環境越安靜,識別的準確率越高。


科大訊飛相關人士向雷鋒網表示,視頻字幕需求分為兩類,一類為已錄製視頻的字幕配置,另一類為直播視頻的字幕配置,科大訊飛的識別技術均可實現上述兩類字幕需求。


目前訊飛開放平台已對外提供第一種已錄製視頻字幕配置需求的"語音轉寫"產品,準確率可達95%,而對於第二種直播視頻的字幕配置產品將在今年年中對外提供。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

通聯數據首席科學家蔣龍:如何用人工智慧發現投資機會?
Facebook 田淵棟詳解:深度學習如何進行遊戲推理?
雅瑞資本張瑞君談機器人大講堂.天使會:服務於產業,推動實體經濟發展,營造共贏大環境非常重要
吳恩達剛走,百度就要在矽谷設立第二家研發中心
吳恩達離職百度,騰訊任命張潼為AI Lab第一負責人 | AI科技評論周刊

TAG:雷鋒網 |

您可能感興趣

技術丨支持外掛字幕的OPPO藍光機,最新的Dolby Vision藍光碟依然能載入字幕嗎?
【虎撲JRs字幕】科比自導自演動畫Musecage第一集:黑暗力量使你強大|蝸殼演技尷尬
繼YouTube之後:Facebook Live支持第三方閉路字幕
谷歌為YouTube添加新功能:利用機器學習自動生成音效字幕
專為聽障人士設計,Starts AR眼鏡可為電影添加母語字幕
中文字幕 | New York回歸,指導眾婊穿衣
【虎撲JRs字幕】字母哥乒乓桌上大戰美女主持Kristen Ledlow|想打控衛不想再長高
【虎撲JRs字幕】諾維茨基翻唱滾石名曲《Satisfaction》,洗滌靈魂拉拉隊一臉生無可戀
PR教程:Premiere Pro剪輯調色軟體字幕工具
【虎撲JRs字幕】怦然心動!美女主播戶外教你如何成為出色的射手|Rachel甜美無敵
防彈少年團bts翻唱版,最愛的一首歌《Danger》中文字幕
中英文字幕:肱三頭肌腱炎Triceps Tendonitis
震驚!這個人直播上字幕的速度比你來一段freestyle還快
IT之家學院:字幕編輯軟體Aegisub基礎與進階教程
【虎撲JRs字幕】街球王the Professor手把手教2K甜心Rachel招牌裝逼動作Whirl Wind
【虎撲JRs字幕】RIP!TNT視頻致敬Craig Sager,催人淚下的純粹人生
字幕組再見:歐洲公司推出自動翻譯字幕的AR眼鏡
Nature期刊:角膜修復所以有光中文字幕
《黑子籃球劇場版last game》高清帶字幕