當前位置:
首頁 > 科技 > 谷歌AI演算法通過OCR與NGrams提取和分析電視台內容傾向

谷歌AI演算法通過OCR與NGrams提取和分析電視台內容傾向

電視機上絕對不乏文字信息。從滾動字幕到覆蓋全屏的消息,文本永遠存在於電視新聞當中。事實上,大約90%的播放時段之內,屏幕上都至少包含一部分可識別的文本;而在這部分時段內,任何特定時間點中的屏幕上都顯示著長度與一條推文類似的文本內容。利用谷歌的雲AI對為期一周的電視新聞報道(來自互聯網檔案館中的電視新聞檔案)進行分析,我們即可探索屏幕文字究竟講述了怎樣的故事。

谷歌AI演算法通過OCR與NGrams提取和分析電視台內容傾向

打開今日頭條,查看更多圖片

為了更好地理解電視上的辭彙,即CNN、MSNBC以及福克斯新聞台的文本世界,外加駐舊金山的各大傳媒集團的分支機構——KGO(隸屬於ABC)、KPIX(隸屬於CBS)、KNTV(隸屬於NBC)以及KQED(隸屬於PBS等早晚播出的內容,我們採集了從今年4月15日至4月22日總計812小時的電視新聞,並利用谷歌的Vision AI圖像理解API進行分析。隨後,我們啟用了該服務的全部功能,包括OCR文本識別。

在這七個站點當中,谷歌的API共識別出長度超過3.71億字元的屏幕文本。

這就引出了一個問題,也就是這些文本到底講了些什麼?

之前提到的「ngrams」是一種已經頗具人氣的分析技術,能夠快速評估大型文本語料庫中的語言模式。在本次分析當中,每個1 fps視頻幀上的屏幕文本都被轉換為小寫形式,並將其中的標點符號剝離出去。而後,該技術將文本拆分成存在空間邊界的單詞,總計得出59萬1千個不同的辭彙,其中約有23萬500個單詞至少出現了兩次。

由於滾動字幕會不斷移動,因此很多單詞可能是在滾動當中被演算法捕捉到多次。因此,單純看字數的方法在動態視頻領域似乎沒有太大的意義。

另一種更有趣的統計方式,就是檢查屏幕文本當中出現頻率最高的單詞。

首先來看CNN,其中最常出現的單詞是「live」,在這一周的統計過程中有59%的時間內霸佔著屏幕顯示周期。接下來為「CNN」(48%)、「ET」(東部時間,43%)、「Mueller」與「Report」(各佔31%)、「AM」與「PM」(各佔27%)、「Trump」(20%)、「Notre」與「Dame」(各佔9%)以及「Bernie」與「Buttigieg」(各佔9%)。

可以看到,CNN最常使用的屏幕文字不出所料是其長期強調的「直播」概念、通用時間戳與台標。Mueller在屏幕文字中被提及的比例也占整周播放時長的近三分之一。而Notre Dame僅在本周播出時長中佔9%,與Bernie Sanders以及Pete Buttigieg保持一致。

MSNBC最常用的辭彙分別是「live」與「MSNBC」台標,各佔55%時長;「Mueller」與「Report」各佔32%。「Trump」被提及的時長比例為16%;而「Notre」與「Dame」的佔比則為5%,與「Barr」一致。

福克斯新聞台的「live」一詞只佔全部時長的10%,但「Fox News」則佔全部時長的68%。「Mueller」的時長佔比為19%,「Trump」為14%,「Notre」與「Dame」分別為5%。

CNN與MSNBC似乎都在著力宣揚自己的「live」放送能力,而且全部三家電視台都會長期在屏幕上顯示自己的台標。因此,在通過演算法分析電視新聞片段時,沒有出現「live」或者台標的內容有很大可能屬於商業廣告。

目前全部614 GB由AI生成的注釋數據都已提供公開下載,其中包括ngram整理出的絕對計數與幀數計數兩種版本。

綜上所述,雖然這些結果只能代表在90%的電視新聞播出時段之內對於屏幕文本相對簡單的分析結論,但這也是第一次證明我們能夠利用AI技術探索電視新聞內容傾向性問題。這是一種全新的視角,也許在未來能夠揭示出更多有趣的真相。

最後做個總結:在此次分析當中,谷歌的AI演算法共處理了長達812個小時的電視新聞。該演算法識別出每個1 fps幀中可識別為文本的各個字元,編譯為一套數據集,而後將其轉換為ngram直方圖,最終顯示出本周在屏幕上出現頻率最高的單詞集合。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 至頂網 的精彩文章:

甲骨文推出新的雲基礎設施代理 令Kubernetes開發人員的生活更輕鬆
助力行業智慧化轉型 浪潮與雅捷信息攜手共贏AI雙核

TAG:至頂網 |