當前位置:
首頁 > 新聞 > 上交大 Acemap 團隊發布學術知識圖譜 AceKG,涵蓋 1 億多個學術實體

上交大 Acemap 團隊發布學術知識圖譜 AceKG,涵蓋 1 億多個學術實體

雷鋒網 AI 研習社消息,日前,上海交通大學王新兵教授和張偉楠教授指導的 Acemap 團隊知識圖譜小組發布了學術知識圖譜 AceKG。從官網可以看到,Acemap知識圖譜(AceKG)描述了超過 1 億個學術實體、22 億條三元組信息,包含六千多萬篇論文、五千多萬位學者、五萬多個研究領域、將近兩萬個學術研究機構等,數據集將近 100G。

知識圖譜(Knowledge Graph)是顯示知識發展進程與結構關係的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪製和顯示知識及它們之間的相互聯繫。通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,並利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構,揭示知識領域的動態發展規律,為研究和決策提供切實的、有價值的參考。

目前,隨著機器學習和自然語言處理技術的不斷發展,在大數據的推動下,知識圖譜受到學界和業界的廣泛關注。但目前它的發展還存在著不少阻礙,例如從數據中挖掘出高質量的知識需要大量的數據處理工作,構建垂直領域知識圖譜的代價很大,很多研究工作都不具備實用性等等。

而 AceKG 究竟有何優勢?據發布團隊介紹,與現有學術知識圖譜相比,AceKG 主要有如下三個特點:

AceKG 提供學術異構圖譜,包含多樣的學術實體與相應的屬性,可以支持多樣的學術大數據挖掘課題,例如現階段異構網路向量化的諸多課題。

AceKG 從更高的角度統覽整個學術圈,提供了近 100G 大小的數據集,包括論文、作者、領域、機構、期刊、會議、聯盟,支持權威和實用的學術研究。

AceKG 以結構化的 Turtle 文件格式給出(具體格式見下表),致力於減少數據預處理的不便,同時更易於機器處理,支持全部 Apache Jena API。

下圖是 AceKG 的結構框架。可以看到,AceKG 為每個實體提供了豐富的屬性信息,在網路拓撲結構的基礎上加上語義信息,可以為眾多學術大數據挖掘項目提供全面支持。

以下是一些示例文件,大家可以點擊如下鏈接http://acemap.sjtu.edu.cn/app/Datasets/KG/example.zip,來了解和使用該知識圖譜。

值得一提的是,AceKG 並不是雷鋒網 AI 研習社報道的第一個學術知識圖譜。此前,清華大學教授、Arnetminer 創始人唐傑博士公開億級學術圖譜——Open Academic Graph。此圖譜集成了兩個最大的公開學術圖譜:微軟學術圖譜(MAG)和 AMiner 學術圖譜。開發團隊通過集成 MAG 中 1.66 億學術論文和 AMiner 中 1.55 億學術論文的元數據信息,生成了這兩個學術圖譜之間近 6500 萬對鏈接(匹配)關係。

據唐傑教授介紹,公開 Open Academic Graph 目的如下:一是集成豐富的學術知識數據,二是數據共享,三是服務共享。簡言之,他們希望能夠造福學術界對知識圖譜、學者合作關係、學術主題挖掘等領域的研究,設計更加智能的學術圖譜連接系統,以方便更多人使用服務以及加入開放學術社區。

在雷鋒網 AI 研習社看來,這些學術知識圖譜的發布,不管對學界還是對業界來說都有極大的意義。一方面能助力大家當前的研究,另一方面也能吸引更多人來進行學術知識圖譜相關的研究。相信隨著越來越多學術知識圖譜的公開,將促進學術大數據挖掘項目的持續發展。

AceKG 詳細信息,參見:http://acemap.sjtu.edu.cn/app/AceKG/index.html


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

庫克:未來 iOS 將提供禁用「蘋果變慢」選項
「噩夢公式」危機重現 Office 漏洞成黑客攻擊利器

TAG:雷鋒網 |