以毒攻毒：愚人節惡搞文章可以用來識別假新聞！

知識 04-01

機器之心報道

機器之心編輯部

在這個假信息泛濫的時代，我們每天都有過愚人節的感覺。Open AI發布GPT-2之後，更多人開始擔心假新聞的泛濫。蘭卡斯特大學的兩位研究者另闢蹊徑，基於愚人節惡搞文章創建數據集，再探究愚人節惡搞文章與假新聞之間的相似性，從而創建機器學習分類器來識別假新聞。

4 月 1 日至少有一個好處，你可以撒點謊而不必擔心友盡。開玩笑啦！愚人節的真正好處是，提供了很多素材幫助語言學家識別「假新聞」。

英國蘭卡斯特大學計算機和通信學院博士生 Edward Dearden 及其導師 Dr. Alistair Baron 就提出了一種建設性方法：利用愚人節那天網路上的假消息來研究欺騙性的語言，藉此找出方法來識別「假新聞」。

他們發現，幽默的愚人節惡作劇——媒體每年4月1日發表的惡搞文章和惡意假新聞在寫作結構上具有相似性。

研究者編譯了一個新的數據集，或者說語料庫，裡面包含14年間的500多篇愚人節惡搞新聞。這些新聞來自370多個網站。

「愚人節惡搞文章非常有用，因為它們提供了很多可證實的欺騙性文本，讓我們有機會發現寫作者寫作以假亂真的假新聞時所使用的語言學技巧。通過查看愚人節惡搞文章的語言並將它們和假新聞對比，我們能夠更好地理解假新聞寫作者使用的語言。」Edward 表示。

將愚人節惡搞文章和同時期寫就但未在愚人節當天發表的真實新聞進行對比，我們會發現文體上的差異。

研究者集中於文本中的特定特徵，例如使用的細節數量、模糊度、寫作風格的正式性和語言的複雜度。

然後他們將愚人節消息和之前由另一組研究人員編譯的「假新聞」數據集（參見《This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News》）進行了對比。

雖然從愚人節惡搞文章中發現的特徵並非都對檢測假新聞有用，但兩者有很多相似的特徵。

研究者發現相比真實新聞，愚人節惡搞文章和假新聞的語言複雜度都偏低，閱讀難度也更低，而且句子更長。

研究發現，愚人節惡搞文章較少使用新聞報道中的重要細節，如名稱、地點、日期、時間等。但是，假新聞比真實新聞更多地使用專有名詞，如著名政治人物的名字：「特朗普」或「希拉里」等，而愚人節惡搞新聞使用的專有名詞則較少。

第一人稱代詞（如「we」）也是愚人節惡搞文章和假新聞的重要特徵。這與大家對欺騙檢測的傳統認知相反，傳統觀點認為說謊者更少使用第一人稱代詞。研究者發現愚人節惡搞文章與真實新聞相比，具有以下特點：

文章長度通常較短

使用更多獨特的詞

使用較長的句子

更容易閱讀

提到未來的不確切事件

更多地提到當前事件

較少提到過去的事件

包含更少的專有名詞

使用更多的第一人稱代詞

假新聞與真實新聞相比，具有以下特點：

文章長度較短

更容易閱讀

使用簡單的語言

標點符號更少

包含更多的專有名詞

通常比較不正式：頻繁使用名字（如「希拉里」），有較多髒話和拼寫錯誤

包含較少的日期信息

使用更多的第一人稱代詞

研究者創建了一個機器學習分類器，用來鑒別文章是愚人節惡搞新聞、假新聞還是真新聞。該分類器鑒別愚人節惡搞文章的準確度為 75％，鑒別假新聞的準確率為 72％。當該分類器在愚人節惡搞新聞上訓練，但用於鑒別假新聞時，其準確率在 65％以上。

該研究相關論文作者之一 Alistair Baron 表示：「在試圖鑑別一篇文章是否為惡搞文章時，觀察文章的細節和複雜度至關重要。儘管存在諸多不同之處，但研究結果表明愚人節玩笑和假新聞之間存在一些相似特徵，通常和結構複雜性相關。」

「我們的研究發現，不同形式的虛假消息之間存在一些共同特徵，而探求這些相同點可以為未來研究假新聞提供重要的洞見。」

該項研究的相關論文為《Fool"s Errand: Looking at April Fools Hoaxes as Disinformation through the Lens of Deception and Humour》，該論文將在本月於法國舉行的第 20 屆國際智能文本處理與計算語言學大會（CICLing）上進行展示。

正如 Dearden 所說，他們的研究只是解決假新聞問題的一部分，並沒有搞定整個難題，人們可以依賴這種演算法識別誤導性文本，準確率極佳：

我們的研究旨在嘗試理解惡搞新聞中使用的語言，並了解這種誤導性信息與我們所說的「假新聞」有哪些相關性。不過我們的論文中並沒有檢測假新聞的靈丹妙藥。

但這項研究可以幫助人們發現一些警告信號，並更加了解自己正在閱讀的內容。雖然指導人們批判性思考和核實新聞真實性的方法超出了這項特定研究的能力，但 Dearden 在他們的研究中提到，教育計算機發現欺騙性文本是該研究的重要一步。

目前在打擊虛假信息的方向上，我們有很多非常有趣的工作。這是非常有意義的，因為人們已經很難適應現有的信息量了，而且這種情況已經產生了實際後果。希望研究社區未來可以開發出一種把影響降到最低的方法。

論文：Fool』s Errand: Looking at April Fools Hoaxes as Disinformation through the Lens of Deception and Humour

論文鏈接：http://www.research.lancs.ac.uk/portal/en/publications/fools-errand(3fb53494-6b3a-4f21-9205-d525e87fa080).html

摘要：每年 4 月 1 日，人們互開玩笑，新聞網站也編織假新聞來欺騙讀者。在這個虛假信息泛濫的時代，Facebook 因允許「假新聞」在其平台傳播，導致人們每天都有過愚人節的感覺而備受指責。我們利用愚人節的惡搞文章創建了一個數據集，並基於過去欺騙性、幽默、諷刺文章檢測的研究構建了一組特徵。對該數據集和這些特徵的分析表明，查看文本的結構複雜性和詳細程度是辨別愚人節惡搞文章的最重要特徵類型。我們認為這些特徵也非常有利於理解假新聞和虛假信息。

參考鏈接：

https://www.sciencedaily.com/releases/2019/03/190329130206.htm

https://www.forbes.com/sites/jessicabaron/2019/03/31/using-april-fools-stories-to-identify-malicious-fake-news/?ss=ai-big-data#30f43f611744

本文為機器之心報道，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※你用什麼方法調試深度神經網路？這裡有四種簡單的方式哦
※數據科學崗位將在未來5年內重新洗牌，你準備好轉型了嗎？

TAG:機器之心 |