當前位置:
首頁 > 科技 > 日攔截3000條評論,知乎正用AI識別「答非所問」和「不友善」

日攔截3000條評論,知乎正用AI識別「答非所問」和「不友善」

「電影中那種很逼真的殺人鏡頭是如何拍攝的?」如果你在知乎拋出這個問題,收到的回答中可能會有這樣的一條「其實吧,那些人都是死刑犯,反正都要執行死刑的,所以就拉來拍電影或電視劇了。」問「數學分析應該買哪套教材?」,會有人答「數學老師不喜歡我。」

抖機靈、講故事,在知乎這個最大的中文問答社區很常見,但這引發的一個問題是,這樣的回答是符合事實的嗎?它會不會惹人煩?

在最近的一次產品內測中,知乎把對一條回答中「有理由反對」的理由細化成了「事實錯誤」、「答非所問」、「煽動情緒」和「不解釋」四種,所謂無用的、低質的回答到底都是哪些內容?知乎希望在演算法層面更好地回答這個問題。

據知乎的反饋,內測期有50000名用戶參與其中,通過用戶選擇判斷和瓦力(知乎在2016年上線的演算法機器人)智能學習的結合,一共處理了超過20000條答非所問的回答。換句話說,用戶的每次選擇都是「瓦力」這個機器人學習的機會和過程。

知乎把AI的作用聚焦在了社區規範上,這既包括一條回答是否涉及「答非所問」,還有社區中是否出現了讓用戶感到不適的言語「不友善」。

在2018GMIC的演講中,知乎合伙人李大海用了兩個具體的案例展示AI是如何在知乎被應用的,他將知乎視為一個中文語料庫,「用戶在知乎上累計提出了2300萬個問題,並收穫了接近1億的回答。」李大海表示,在問答爆炸的狀態下,知乎的演算法機器人「瓦力」獲得了落地場景,在這裡,瓦力的作用是幫助優化和執行社區規範。

「用戶對一個回答的贊同或者反對,他們對任何內容的舉報,他們對一個問題發起一個話題,或者對問題或者話題進行公共編輯,在某種程度上我們都可以把它認為是對相應文本語料進行標註。有了這樣標註數據以後,我們就能夠去利用有監督的機器學習演算法去得到一個更好的語義表示,從而能讓我們對語言的理解能夠達到一個更高的層次。」李大海稱7年的運營經驗對於AI落地是非常有幫助的,因為它能夠把社區氛圍這個很虛無的大問題分解為很多小的目標明確的,可以解決的問題,降低這個問題的難度。

在李大海的舉例中,「答非所問」和「不友善的評論」是傷害社區氛圍的兩個主要問題,對於前者,解決方法除了在更短的時間裡處理知友舉報的不良回答,知乎還通過建立隨機森林模型對回答進行識別、分類。

在一開始,知乎會建立一個模型,比如問題是「知乎的寵物是狗還是狐」,讓每個樹自己投票。準確率能夠達到97%,但問題是它的召回率不高,這意味著一些答非所問的回答會被放過。知乎開發了新的模型,任何一個回答只要發出來,很快就能夠被分類。將反對理由細化,也正是提升AI識別能力的有效方法。

對於「不友善」的評論,李大海在演講中表示,陰陽怪氣,也就是反諷的識別是非常難的,反諷是一種完全正面的詞語去表達負面的意思,是一個很高級的修辭手法,機器人很難明白的。像謝爾頓作為物理學家,他的智商在全人類排名前10,他也常常聽不懂別人對他的諷刺。

在訓練中知乎會把內容本身的特徵儘可能的feed到模型中去,包括像文本特徵,一些數值特徵,還有像反諷詞表,以及一些表現符特徵等等。舉例來說,如果一個評論有很多好的用戶,他們都進行了反對,這就是一個負向的。如果另外一個評論有很多用戶點了贊同,它可能就是正向的。基於此知乎可以構建大量的一個標註數據,但這樣一個方案還在開發過程中。

目前,對於「不友善的評論」,瓦力每天可以實時攔截處理3000條內容,覆蓋內容從大眾版本的不友善,到五花八門的歧視、惡意貼標籤,對各種親朋的「問候」以及花樣繁多的變體等。

然而,把識別「不友善的評論」的全部工作交給人工智慧仍是不切實際的,知乎在產品專欄中寫道:「由於數據不均衡、數據排查標註成本較高和上述數據的分布特點,全量內容模型要做到準確率 98% 以上非常困難,因此我們根據人工審核量,選擇一個適宜的閾值,在保證每天召回量的基礎上,維持召回內容的處理準確率到 80% 以上,並將召回的內容進行人工審核。」

「我們相信知乎通過這種龐大的高質量用戶行為的學習和分析,一定在語義和用戶關係這兩個層面上一個更深的建模和理解。能夠像在反諷前沿領域的突破,任何一個突破對中文互聯網,甚至全球互聯網討論環境中都應該有非常正面的作用。」李大海表示。(本文作者/宮赫婧,根據知乎授權內容進行整理。編輯/蘇建勛)

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 鈦媒體APP 的精彩文章:

瘋狂收購引發擔憂,阿里市值累計蒸發610億美元
鈦媒體Pro創投日報:3月21日收錄投融資項目28起

TAG:鈦媒體APP |