全棧式內容風控,UGC內容平台的生死大事
令UGC頭部平台焦慮的,不是流量,而是內容審核
UGC內容平台,無論是資訊類、社交類、還是視頻類,在贏得了網民的支持(流量暴增)之後,隨之而來的,是頻繁的監管審查、違規處理,諸如約談、整頓、關停。
凡事物極必反,經濟繁榮表象下深藏泡沫,而內容產業的繁榮下則是亂象叢生,受利益驅使,黑產自然不會放過內容平台這塊肥肉,平台成了間接作惡工具,自然給企業帶來源源不斷的麻煩、損失。
2018年4月4日,國家廣電總局約談今日頭條、快手相關負責人,要求其將網站上涉及低俗、暴力、血腥、色情等內容的節目立即下線。7月,短視頻行業又迎來一輪最嚴監管,多達15款短視頻App被下架。其中包括嗶哩嗶哩、洋蔥視頻等用戶耳熟能詳的短視頻分享平台。
2018年,令UGC平台最焦慮的不是流量,而是合規,是內容風險。Facebook目前在全球擁有7500個內容審查員;年初今日頭條內容審核已超過4000人,預計未來突破1萬人;快手多次被約談,勒令整改,不得不擴充審核隊伍,2018年4月宣布緊急擴招3000名內容審核員。
當然,除了大平台,小平台也一樣,內容風控是當下互聯網業務發展最急迫也是最棘手的問題。
來自內容的風險主要有兩類
(1)監管合規難
主要是涉政、違禁、暴恐、色情四大類內容,將直接導致平檯面臨約談、整頓、罰款乃至關停等監管風險。
(2)商業損失
UGC平台充斥大量廣告導流、欺詐廣告,導致用戶體驗變差、用戶流失、平台受損。
導流廣告和欺詐廣告,往往由黑產所為。隨著互聯網行業發展,網路欺詐無處不在,黑色產業鏈已發展為成熟體系。企業反欺詐面臨著黑產技術水平與專業程度不斷提高、缺乏全局風險數據支撐、專業反欺詐人才不足等實際難題,在黑產面前,損失不言而喻。
內容上出了問題,不僅會導致企業停擺,更會讓股市瑟瑟發抖,令投資人睡不好覺。此前,在被點名、約談乃至下架之後,B站股市飄綠,隨後不得不將內容審核上升到戰略級。
在內容百花齊放的時代,內容風控自然成了各平台不可避免的發展課題。
內容風控的四個發展階段
對於內容風控的進化階段,我認為有如下四個:
無人監管:平台必將頻頻遭遇監管冷板凳待遇。
全部人工審核:面對黑產時,他們是機器作案,快速更新欺詐手段,更新設備號。人工必然是疲於應付,卻收效甚微。
機器+人工審核:這是部分公司採用的方式,但受限於策略與模型上的規則簡單,導致機器漏殺誤殺嚴重,人工變成了對機器審核的再次檢驗,效率不僅沒有提升,準確率也不高。
全棧式AI審核:基於人工智慧演算法,海量內容資料庫,建立全棧式的內容及場景模型覆蓋,結合用戶行為畫像,確保內容防護面面俱到,內容識別高效與準確。
內容大爆炸的時代,違規內容、欺詐內容呈指數級增長,在內容審核上,有些是人工無法逾越的,比如:人不能24小時工作,內容審核團隊也不能無限制擴編。
此外在效率上,人工看圖片可以快速掠過,看視頻和音頻卻無法快進,效率就會大打折扣。而機器可以在音視頻上節省大量時間,比如:在音頻識別上,將聲音轉化成文字,再識別文字內容。再比如:面對黑產操縱的欺詐廣告,可以採用全局的風險數據支撐和強大的反欺詐技術,實現精準識別。
所以,應付五花八門的內容風險,自然要採用更前瞻的人工智慧技術加全棧式的內容風控策略。
如何構建一個無懈可擊的全棧式AI內容防護?
機器智能審核的準確率取決於數據量、演算法、模型。當數據量不夠多時,自然會漏殺,當策略模型和演算法不準確時可能會誤殺。AI過濾就是通過對海量數據的深度學習,再結合演算法對特定場景建立相應的分析模型,最終把不同內容形式的不良內容過濾和攔截掉。
當然,對於不同內容形式,所需的技能與策略也不一樣,下面我來一一講述。
1. 文本識別
在文本識別上,人工智慧技術可以通過深度學習與智能文本語義分析,識別同一詞在不同語境中的風險。比如:針對大麻一詞,「雨很大麻煩車開慢一點」是正常,「在美國大麻違法嗎」就屬於違禁。
文本識別重在要同步網安和網信辦合規要求,建立違規敏感詞庫,一般要建立數十萬級詞庫,涵蓋各類敏感信息。
在對色情文本的識別上,則體現在分類模型的建立上,比如:區別什麼是色情、什麼是低俗、什麼是辱罵,因為不同平台的審核標準不同,不同的分級要區別對待。
文本識別,還有一個很重要的功能就是識別聯繫方式。現在的聯繫方式(微信、QQ、手機、網址、百度搜)以及各種變體,可謂五花八門。對此,通過機器學習建立上萬種聯繫方式變體特徵庫就顯得很重要。
2. 圖片識別
圖片識別同樣有各種細分需求,拿涉政圖片來說,就得分普通、漫畫、雕塑、惡搞、負面涉政等。圖片識別重在建立資料庫,以及針對不同類型進行模型訓練。
拿暴恐來說,同樣是槍支,細化到場景,有單純的槍支圖片,但是遊戲人物拿著槍支算不算?
這就涉及到對不同的槍支圖片進行細分,分別建策略模型,確保遊戲槍支不被誤殺。
色情圖片識別,也需要分級,性感、色情、重度色情要區別對待,其次是場景,直播、視頻、電商、社區、遊戲,不同的場景下的色情要分別對待,海外一些平台非常重視兒童裸露色情,所以就得有兒童裸露的策略模型,而國內審核上一般不視為色情。
2. 音頻識別
一般語音識別在語音直播、FM電台、語音消息、語音文件、視頻直播中都有用到。語音過濾可以利用人工智慧將語音轉文本,再識別文本中的涉政、色情、廣告等內容。語音識別又涉及到不同語種,比如:普通話、英語、藏語等。
此外,還有一些是特殊化的語音識別,比如:嬌喘識別是通過深度學習與語音檢測技術,識別嬌喘、呻吟等非說話色情。
3. 視頻識別
視頻識別是對視頻內容中的畫面、聲音、文字進行全方位分析過濾,視頻包括短視頻、長視頻、視頻直播等多種場景。
人工智慧技術對視頻的審核過濾,會將視頻進行拆分,將視頻進行畫面截幀,從而過濾圖片,圖片中的字幕則利用OCR字幕來過濾。視頻標題通過文本過濾模型來檢測,視頻語音則單獨採用語音模型過濾。
全棧式AI內容風控需要具備哪些特徵?
互聯網發展至今,需要內容風控的場景越來越多,更新迭代也快,從文本、圖片,到長視頻、短視頻,直播答題火了一陣後,抖音風生水起,內容的場景越多,對內容審核的AI技術及場景化應用的要求也更高。我認為做到全棧式AI內容風控需要具備三個方面:
(1)橫向來講,在內容形式上要做到全域覆蓋
內容主要有五類:文本、圖片、音頻、視頻、網頁。
文本要合規,音視頻也要合規,各種形式的內容風控都要抓起來。文本比較單一,但視頻中有圖片、標題、字幕、語音,它又是一個綜合了多種形式的內容,它的審核要更複雜。在音頻內容中有聲紋識別,還有非說話色情,比如:嬌喘等等。在內容形式上要覆蓋足夠寬廣,才不會造成誤殺漏殺。
(2)縱向來講,在垂直場景上要做到深度應用
風控是細化到場景的,對場景的理解與場景化建模能力要求很高,拿圖片涉政場景來講,有正常照片、雕塑、漫畫,每一個場景都需要單獨的模型。遊戲直播平台會要求把槍支分為槍支和遊戲槍支,那麼遊戲槍支就需要單獨建分析模型。
在特殊時期,坦克這一類型也是需要被識別過濾的,還有不良行為,比如:抽煙、喝酒等,人工智慧技術非常考驗對場景的理解與技術應用。
(3)結合用戶行為畫像,從源頭識別欺詐用戶
前文中提到的內容風險除了有監管不合規外,還有一類是商業損失。造成商業損失的內容,如廣告導流、欺詐廣告是由專業的黑產團隊所為。
正常用戶所發布的內容,我們通過機器的深度學習來識別,但黑產發布的內容通常是通過設備號批量註冊賬號,批量發布信息,令人防不勝防,這時候就需要我們結合設備指紋與用戶行為畫像分析來進行反欺詐。
行為畫像是採用行為序列、關聯圖挖掘、風險傳播演算法等時域關聯分析技術對用戶做行為分析。比如:用戶在登錄時顯示沒問題,但是每隔幾分鐘登錄一次,可能就是問題用戶。再比如:用戶登錄沒問題,但行為有問題,頻繁發違規內容,這樣綜合判定該用戶是有問題的。
用戶畫像主要是對用戶歷史行為進行記錄,對其每一次的網路行為也進行記錄,最終結合啟動、註冊、登錄、再到業務行為,把這幾個步驟關聯起來建立用戶行為畫像,確保識別效果更準確。
用戶行為畫像是反欺詐中的關鍵點,以聲紋識別舉例來說,在平台上識別出欺詐廣告的賬號,會把其聲紋記錄下來存在聲紋黑名單庫中,下次即使該用戶更換了設備再進行詐騙,依然可以通過聲紋比對識別出來。
一般一台設備是一個人使用,不同的聲紋使用同一台設備,並且出現違法內容時也可以判斷為有問題的用戶。聲紋識別是通過聲紋檢索比對技術,進行聲紋聚類、關聯,發現線上、線下語音廣告與欺詐行為。
橫向的內容層、縱向的場景層、加上從源頭對用戶行為的分析,全棧式AI內容風控,其實是建立了一個多維防禦空間來攔截和過濾違規內容與欺詐用戶,從而防範業務風險,避免更大的損失。
增長得越快,背後的風險也越大。UGC內容平台,小步快跑的同時,別忘了,先好好活著。
版權聲明:圖文來源網路,我們對文中觀點保持中立,只以信息傳播為目的,文章版權歸原作者所有,如有侵權,請聯繫我們刪除。