維基百科你已經是個大百科了，該自己學會用ML識別原文出處了

知識 04-21

選自wikimediafoundation

作者：Miriam Redi、Jonathan Morgan、Dario Taraborelli、Besnik Fetahu

機器之心編譯

參與：Nurhachu Null、思源

維基百科可能是我們認為比較客觀真實的材料了，但它包羅萬象卻又會引起一些小問題，例如很多句子或說法提供不了引用出處。那麼機器學習在預測引用，並給出引用原因方面就顯得非常重要，它會讓這一自由的百科全書更加完美無瑕。

讓維基百科保持高質量的一個關鍵機制就是內聯引用的使用。通過引用，讀者和編輯者可以確定一篇文章中的信息準確反映了其來源。正如維基百科的可驗證性原則所要求的，「受到質疑的材料，或者很可能受到質疑的材料，以及所有的引文，都要具有可靠的、已發布的來源」，沒有來源的材料應該被刪除，或者使用「需要引用」的標記來提出質疑。

然而，決定哪些句子需要引用可能不是一項簡單的任務。一方面，編輯者被強烈要求避免為很明顯的或者常識性的信息添加引用——例如「天空是藍色的」。另一方面，有時候天空並不一定是藍色的——所以或許我們還是需要一個引用？

將這個問題擴大到整個百科全書的規模可能會變得難以應付。維基百科編輯者的專業知識很有價值，但他們的時間卻是有限的，那麼他們的引用工作應該集中在哪些類型的事實、文章和主題上呢？此外，最近的統計表明，相當一部分比例的文章只有很少的參考文獻，英文維基百科中四分之一的文章根本就沒有任何參考文獻。這意味著，有大約 35 萬篇文章包含一個或多個需要添加引用的標記，而且我們可能遺漏了更多。

我們最近設計了一個框架，幫助編輯者在維基百科中識別哪些句子需要引用，並且確定需要引用的優先順序。通過針對英語、義大利語和法語維基百科的編輯者們開展的一項大型研究，我們首先確定了維基百科文章中單個句子需要引用的共同原因。然後我們使用這項研究的結果來訓練一個機器學習模型分類器，它能夠預測英語維基百科中任何一個給定的句子是否需要一個引用，以及為何需要引用。這個模型將在 3 個月內部署到其他語言的版本中。

通過識別維基百科獲取信息的位置，我們能開發系統，以支持志願者驅動的驗證和事實檢查，從而有可能提升維基百科的長期可靠性，抵禦信息偏差、信息質量的差距以及虛假宣傳。

我們為何要引用？

為了教會機器如何識別不經驗證的陳述，我們首先要將句子需要引用的原因進行系統的分類。

我們首先檢查了與英語、義大利語和法語維基百科中與可驗證性相關的政策和指南，並嘗試特徵化這些政策中的標準，即是否添加引用的標準。為了驗證和豐富實踐的集合，我們要求來自於這三個語言社區的 36 名維基百科編輯者參與試點實驗。我們使用 WikiLabels 收集了編輯者們對維基百科文章中句子的反饋：編輯者要決定一個句子是否需要引用，並且以自由形式的文本給出他們的理由。

我們的方法，以及最終關於是否需要添加引用的理由可以在項目網頁中看到：

地址：https://meta.wikimedia.org/wiki/Research_talk:Identification_of_Unsourced_Statements/Labeling_Pilot

添加引用的理由

不添加引用的理由

教機器學習引用

接下來，我們訓練機器學習模型來發現需要引用的句子，並提供對應的理由。

我們首先訓練一個模型，從整個編輯者社區中學習如何識別需要引用的句子。我們創建了一個英語維基百科的「精選文章」數據集，這是一個高質量的文章選集，每一篇都引用了很多文章。精選文章中包含內聯引用的句子被標記為正例，沒有內聯引用的句子被標記為負例。使用這些數據，我們基於句子中的詞序列訓練了一個 RNN 分類模型，它能夠預測一個句子為正例（需要引用）還是負例（不需要引用）。最終模型對正例的分類準確率高達 90%。

解釋演算法預測

那麼為什麼模型具有高達 90% 的準確率呢？在決定句子是否需要引用的時候，演算法是什麼樣子的呢？

為了解釋這些結果，我們對需要引用的句子進行了採樣，並且將模型考慮最多的單詞進行了高亮標註。例如，在陳述「opinion」的例子中，模型將最高的權重給了「claimed，宣稱」一詞。在「statistics，統計」這項引用原因中，對模型最重要的單詞是分析數值時最常用的動詞。在「scientific，科學」引用原因的例子中，模型將更多的注意力給了領域專用的單詞，例如「quantum，量子」。

模型認為需要引用的句子樣本，關鍵單詞高亮標註。

預測句子引用的原因

更進一步，我們希望模型提供引用原因的完整解釋。我們首先使用 Amazon Mechanical Turk 設計了一個眾包實驗，用來收集引用的理由，並將其作為標註。我們從精選文章中隨機抽取了 4000 個句子，讓眾包工作人員使用我們在之前的研究中識別出的八個原因進行標註。我們發現，當句子與科學或歷史事實相關，或者是直接、間接引語時，我們需要提供引用。

我們修改了在之前的研究中所用的神經網路，以便能夠將無源的句子分類為 8 個引用原因類別中的一個。我們使用眾包標記的數據集重新訓練了這個網路，發現它在預測引用原因的時候達到了合理的準確率（精度 0.62），尤其是對於具有大量訓練數據的類別。

後續步驟：預測跨語言和主題的「引用需要」

這個項目的下一個階段將會涉及到修改我們的模型，以讓它們能夠為維基百科上的任何一種可用的語言進行訓練。我們將會使用這些跨語言模型來量化維基百科不同版本中未經驗證的內容的比例，並將引文的覆蓋範圍映射到不同的文章主題，以幫助編輯者識別那些非常需要添加高質量引用的地方。

我們計劃儘快提供這些新模型的源代碼。同時，您可以查看我們的研究論文「Citation Needed: A Taxonomy and Algorithmic Assessment of Wikipedia"s Verifiability」，這篇論文最近被 The Web Conference 2019 接收，它的補充材料詳細分析了引用政策以及我們用於模型訓練的所有數據。

論文鏈接：https://arxiv.org/abs/1902.11116

論文補充材料：https://figshare.com/articles/Summaries_of_Policies_and_Rules_for_Adding_Citations_to_Wikipedia/7751027

數據：https://figshare.com/articles/ Citation_Reason_Dataset/7756226

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※關於GAN的靈魂七問

TAG:機器之心 |