當前位置:
首頁 > 新聞 > 谷歌發布Coarse Discourse:最大在線討論數據集

谷歌發布Coarse Discourse:最大在線討論數據集

選自Google Research Blog

作者:Praveen Paritosh等

機器之心編譯

參與:蔣思源


近日,谷歌官方研究博客發布了一個開源數據集,該數據集包含10萬多條經標註的在線討論語料,是迄今為止最大的在線討論標註數據集。該數據集的構建者希望其能進一步推動機器學習和自然語言處理研究的進步。

谷歌發布Coarse Discourse:最大在線討論數據集

  • 項目地址:https://github.com/google-research-datasets/coarse-discourse

  • 論文地址:https://research.google.com/pubs/pub46055.html

每天,在線社區論壇的參與者們都分享他們的觀點、經驗、建議和社會支持,其中大部分分享都是自由表達並且沒有什麼限制。而這些在線討論通常是許多重要話題(如育兒、健身、旅遊等)的關鍵資源。然而,這些討論也通常混雜了一些分歧、幽默、論戰等主觀情感,這也就需要讀者們在獲取需要的信息前先過濾一遍內容。雖然信息檢索(Information Retrieval)領域正積極地探索能讓用戶搜尋、瀏覽和使用這些內容更高效的方法,但始終缺少論壇討論的數據集來更好地理解這些討論。

為了幫助信息檢索領域的研究員,我們發布了 Coarse Discourse 數據集,該數據集是迄今為止最大的在線討論標註數據集。Coarse Discourse 數據集包含了超過 50 萬人在線公開討論的標註數據,其來源於 reddit 130 個社區超過 9000 場討論的隨機抽樣結果。

為了創建這一個數據集,我們開發了一種論壇評論的粗略話語分類法,該方法通過瀏覽論壇主題的一個小數據集,並閱讀每一條評論,然後再評價每一條評論在討論中所起的作用。我們會利用眾包人類編輯重複和修改這一過程,以驗證分類話語類型的重現性,其中話語類型就包括了公告、提問、回答、同意、不同意、讚賞、消極反應、詳細闡述和幽默等。在這些數據中,有超過 10 萬條評論由眾包編輯獨立地標註了話語類型和關係。除了來自於眾包編輯的原始標註外,我們同樣提供了粗略話語標註任務指南,該指南幫助編輯們從其他論壇中收集數據以更進一步精鍊他們的任務。

  • 粗略話語標註任務指南:https://github.com/google-research-datasets/coarse-discourse/blob/master/rating_guidelines.pdf

谷歌發布Coarse Discourse:最大在線討論數據集

上圖是對一個主題中話語類型和關係進行標註的案例。先前的研究《Characterizing Online Discussion Using Coarse Discourse Sequences》表明,問題解答在大多數社區里是一個突出的使用案例,只不過一些社區會通過反覆的交互更關注於會話。

對於機器學習和自然語言處理研究者來說,他們更希望描繪在線討論的自然屬性,而我們正希望這一數據集對他們是一個有用的資源。你可以訪問上文項目地址中的鏈接下載數據集。如需獲得更多的信息,可以查看此篇 ICWSM 論文。

論文:Characterizing Online Discussion Using Coarse Discourse Sequences

谷歌發布Coarse Discourse:最大在線討論數據集

在該項研究中,我們提出了一種將在線討論中的評論分類為一組粗略話語行為的新方法,該方法目的是為了更大規模地理解在線社區的討論。為了促進該項研究,我們設計了粗略話語行為的分類類別,該分類旨在包含一般在線討論的類別,並為眾包編輯提供更便捷的標註方式。我們收集並發布了超過 9000 多個主題 10 萬多條評論的語料庫,並通過付費眾包的方式人工標註從 Reddit 隨機抽取的話語行為。通過我們的語料庫,其展示了話語行為的分析如何表示不同類型的討論,包括話語序列如 Q&A 對或爭論序列。最後,我們使用該語料庫進行實驗並預測話語行為,我們發現結構化預測模型如條件隨機場可以實現 75% 的 F1 分數。我們同樣還展示了如何從簡單的問題與回答到多類別來擴展話語行為,其可以提高 Q&A 抽取的召回率表現。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

好奇心驅動人工智慧:UC Berkeley提出自監督預測演算法
習慣arXiv的今天,我們的論文應該引用預印本嗎?
新聞太長不想看?深度解析MetaMind文本摘要新研究
微軟論文概述神經信息檢索技術:如何將神經網路用於信息檢索?
蘋果收購Lattice Data,挖掘黑數據的數字石油價值

TAG:機器之心 |

您可能感興趣

關於Kafka High watermark/LEO的討論(2)
Facebook泄露的備忘錄在Twitter上引發熱烈討論
Oculus Connect 5公布了將要討論的會議主題
Mini首席設計師Oliver Heilmer討論汽車3D列印的未來
新系統Android P 閃亮登場,但我們該如何討論「Android」
時裝故事會:Balmain/Lacoste/H&M Studio,圍繞著真我、環保和生活展開討論!
誰才是LPL打野的巔峰?Clearlove、Mlxg還是Ning王?一起討論吧
adidas 首席執行官表示公司尚未討論關於 Kanye West 之言論
Ethereum開發人員打開EIP,討論「賄賂」Ethash ASIC礦工
從感知到分析——第二次Heinz Bienefeld討論短課
5G NR的Numerology中的子載波間隔的討論和取捨過程
華為:國行MateBook X Pro預計8K起、AMD產品在討論
蘋果在5月Display Week活動上討論關於AI等新技術
圭賢有望回歸《Radio Star》 SM稱尚在討論中
小組討論中,leader、report、成員應注意哪些技巧?
四月最佳 Github 項目庫與最有趣 Reddit 熱點討論
國行版華為MateBook X Pro預計8K起售:AMD合作討論中
成員關係不好嗎?RedVelvet 成員 Wendy 機場照引發的討論
微軟收購視頻討論平台Flipgrid
女團模仿Twice引起討論才幾天,中國男團又模仿Wanna One雜誌照?