當前位置:
首頁 > 新聞 > 清華唐傑博士詳解億級學術圖譜Open Academic Graph,如何高效精準生成6500萬對匹配關係?

清華唐傑博士詳解億級學術圖譜Open Academic Graph,如何高效精準生成6500萬對匹配關係?

雷鋒網 AI 科技評論按:近日,清華大學副教授、Arnetminer 創始人唐傑博士在微博上公開了開放學術組織(Open Academic Society)發布的億級學術圖譜——Open Academic Graph。據唐傑博士介紹,該圖譜目前集成了兩個最大的公開學術圖譜:微軟學術圖譜(MAG)和AMiner學術圖譜。具體來說,團隊通過集成MAG中1.66億學術論文和AMiner中1.55億學術論文的元數據信息,生成了這兩個學術圖譜之間近 6500 萬對鏈接(匹配)關係。

雷鋒網 AI 科技評論第一時間採訪了唐傑博士,詳細了解到這個億級學術圖譜和與之相關的研究難點以及技術突破。

億級數據,籌備半年

目前這個學術圖譜中的數據集主要是論文,包括論文中的題目、作者、會議、年份、摘要等元數據。不同於國內大的學術資料庫知網、萬方等以中文為主,Open Academic Graph中的論文主要是英文。根據唐傑博士的介紹,如此龐大的數據集,團隊前後花了半年時間籌備。

耗費如此多的時間和精力,做這個數據集目的何在?唐傑博士告訴雷鋒網AI科技評論,他們想要集成全球不同學術知識圖譜,並公開共享學術圖譜數據和相關學術搜索與挖掘服務。具體包括如下三點:

一是集成豐富的學術知識數據。目前開放學術圖譜的核心數據來自微軟學術圖譜和AMiner學術圖譜,下一步將集成更多其他學術圖譜數據,包括擴充不同類型實體(如作者、論文等)的語義數據。通過數據集成和數據挖掘演算法將鏈接更多實體更精準和豐富的「畫像」數據,包括論文的元數據、概念網路、研究領域、全文等和作者的基本信息(如:職位、單位、聯繫信息、國別、性別等)、研究興趣以及論文列表等。

二是數據共享。通過共享不同的學術知識圖譜以及它們的鏈接關係,我們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘以及大規模學術圖譜連接等領域的研究。同時,歡迎更多來自學術社區的貢獻來進一步增強開放學術圖譜。

三是服務共享。我們希望設計更加智能的學術圖譜連接系統,並提供相關的服務(如API),以方便更多人使用服務以及加入開放學術社區。

精準匹配,挑戰頗多

龐大的數據量,要實現精準匹配勢必會存在各種各樣的問題。唐傑博士坦言,在實際的研究過程中,由於學術數據在不同圖譜中的分布異構特點,同名異義和異名同義問題嚴重。對於出現的問題,他也舉了幾個實例來具體說明。

一是數據異構問題。由於數據分布在不同數據源,可能面臨數據異構的問題。比如論文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,論文所發表的期刊或會議有全稱或縮寫等多種形式。

二是同名消歧問題。同一名字可以表示多個實體,這也給圖譜連接帶來了很大困難。比如常見姓名通常是匹配的難點。在2016 年,中國重名最多的30 個姓名中,每個姓名重名人次達到20 萬以上。對於論文來說,不同論文也可能有相同的題目,如:Data, data everywhere 在資料庫中可對應多篇文章。

除了前面提到的兩個問題,要想實現億級數據的集成,如何進行高效計算也是另一個重要挑戰。唐傑博士提到,以AMiner為例,已經公布的論文數據就有1.55億,而微軟學術圖譜的公開數據也達1.6億,計算兩個圖譜匹配關係的演算法複雜度一般來說是O(n2),這需要大量計算。

精進演算法,不斷突破

那麼團隊究竟如何處理這些問題?他們設計了一個折衷方法,同時考慮精度和效率。據介紹,他們的方法能將演算法複雜度降低到O(nlogn)到O(n2)之間,目前每天能夠完成約2千萬篇論文的匹配,基本完成了合計3億篇論文的自動匹配,並保證了高匹配精度。

該演算法是在RiMOM演算法的基礎上進行了改進。

具體來說,我們設計了一個針對大規模論文匹配的非同步搜索框架。對於AMiner中的每篇論文,我們根據題目在MAG中搜索可能匹配的論文,每次搜索的時間在幾百毫秒到幾秒不等。通過非同步搜索的策略,可以做到平均每秒搜索到20餘篇論文,使得大規模的圖譜鏈接可以達到較快的速度。

為進一步提高自動集成速度,他們還嘗試了兩個新的匹配演算法MHash和MCNN。

MHash是利用哈希演算法,將每篇論文轉化為一串二值編碼,計算兩篇論文之間的漢明距離。由於使用了哈希,該演算法速度很快,但同時精度也有所降低,大概能保持93+%的匹配準確率。MCNN是基於卷積神經網路的深度學習方法,MCNN基於單詞之間的相似度構造兩篇論文的相似矩陣,然後利用卷積神經網路來捕捉文本之間的相似模式。

採訪過程中,唐傑博士還提到在實際的操作過程中,該方法可以緩解數據異構的問題。如:對於作者Quoc Le 和Le, Quoc,它們對應位置上的單詞是不相似的,但是在相似矩陣中可以捕捉不對應位置上單詞的相似度。該方法可以達到非常高的匹配準確率(98%+)。兩個論文匹配演算法均結合了論文的多個屬性,如題目、作者等減輕同名消歧問題。

總結

唐傑博士團隊與微軟聯合發布的Open Academic Graph,不管對學界還是對業界來說都有極大的意義。一方面能助力大家當前的研究,另一方面也能吸引更多人來進行學術知識圖譜相關的研究。

在未來,他們還將研究如何集成大規模異構學術圖譜中不同類型的實體(如作者、會議等),公布更多學術圖譜連接數據(如作者連接數據),設計更加智能的學術圖譜連接系統並提供相應的服務。

最快今年年底,我們可能就會看到更大的數據集。雷鋒網 AI 科技評論也將持續關注。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

如何優雅地用TensorFlow預測時間序列:TFTS庫詳細教程
Facebook:多次分享假新聞 將不準再投廣告
對科技感到「恐懼」,Facebook前高管竟端著槍隱居森林
亞馬遜Echo發家史(下):高維布局、戰略碾壓,Alexa的全場景較量
英特爾推出Movidius Myriad X VPU,用神經計算引擎全面加速AI時代

TAG:雷鋒網 |

您可能感興趣

DELL R720安裝Windows Server 2008R2 Datacenter 詳解教程
V6廠宇舶法拉利F11系列Big Bang Ferrari Ceramic 401.CX.0123.VR腕錶詳解評測
Spring Boot 2.0 新特性詳解
驍龍855移動平台最佳搭檔 高通Snapdragon Elite Gaming遊戲優化詳解
長江存儲Xtacking詳解:3000次P/E壽命,3Gbps IO速度
Spark2.1.0事件匯流排分析——LiveListenerBus詳解
Lightroom Classic CC v7.3更新詳解
詳解Redmi Note8 Pro手機6400W主攝表現
OpenCV VideoCapture.get()參數詳解
詳解華為mate20pro的優缺點
Spring Security 5.0 的 DelegatingPasswordEncoder 詳解
Hibernate配置文件詳解-1
乾貨:詳解 Tomcat 配置文件 server.xml
詳解華為Mate 20 Pro DxOMark評分
英特爾官方詳解10nm Ice Lake和Lakefield
KDD 2018 Research Track 最佳學生論文詳解:流行音樂的旋律與編麴生成
Instagram、LinkedIn、BAT等60+大前端最佳實踐案例詳解
TensorFlow 2.0 新功能 官方詳解
SpringBoot | 第三章:springboot 配置詳解
詳解Python 2.x與Python 3.x 的區別