當前位置:
首頁 > 最新 > 數字無限│2008—2017年我國編輯出版學領域數據科學研究

數字無限│2008—2017年我國編輯出版學領域數據科學研究

本文刊載於《科技與出版》2018年第5期P86-91

如果您喜歡,歡迎轉發至朋友圈

訂購我刊,郵發代號:82-65

摘 要

以中國知網資料庫中收錄的2008—2017年15本編輯出版學學術期刊所刊發的336篇數據科學相關主題文獻為樣本展開分析,探究我國編輯出版學領域數據科學研究的研究現狀、熱點、發展脈絡及趨勢。採用文獻計量方法,從發文趨勢、作者、機構分析研究現狀,利用Citespace繪製關鍵詞共現、時區與聚類圖譜。結果顯示,我國編輯出版學數據科學研究具有清晰的發展脈絡,研究熱點集中於數據挖掘與存儲、大數據應用及與數字出版的協同發展。編輯出版學領域已將數據科學用於解決科研問題和指導社會生產,但核心研究群體薄弱,仍處於研究發展階段。人工智慧等新興數據科學技術應用於新型生產與營利模式成為未來研究的重點。

關鍵詞

編輯出版學;數據科學;文獻計量;Citespace

「數據科學」最早由著名計算機科學家彼得·諾爾(Peter Naur)於1974年在其著作Concise Survey of Computer Methods中提出,「數據科學是一門基於數據處理的科學」[1]。隨著雲計算與大數據等數字技術的興起,數據科學成為一門蓬勃發展的新學科。數據科學對大數據、機器學習、數據挖掘、信息科學、社會科學等領域產生了深遠影響[2-4],編輯出版學也不例外[5]。

1 研究工具與數據來源

本文運用CitespaceⅢ軟體,通過中國知網檢索國內15種編輯出版學學術期刊在2008—2017年刊發的相關科學文獻數據,進行計量及可視化分析,梳理數據科學在國內編輯出版學領域的研究現狀、熱點及趨勢。

在初始檢索過程中,以篇名或關鍵詞包含「數據科學」作為檢索規則,僅得到1篇文獻,無法繼續進行研究。因此,根據已有研究歸納與數據科學聯繫較為緊密的關鍵詞,調整檢索條件,具體檢索表達式為:((TI="大數據"+"數據挖掘"+"人工智慧"+"AI"+"機器學習"+"深度學習"+"神經網路"+"數據科學")or(KY%"大數據"+"數據挖掘"+"人工智慧"+"AI"+"機器學習"+"深度學習"+"神經網路"+"數據科學"))AND JN="中國科技期刊研究"+"編輯學報"+"編輯之友"+"出版發行研究"+"科技與出版"+"現代出版"+"出版科學"+"中國出版"+"出版參考"+"出版廣角"+"編輯學刊"+"中國編輯"+"河南大學學報(社會科學版)"+"北京印刷學院學報"+"浙江傳媒學院學報",其中TI為篇名,KY為關鍵詞。文獻發表時間選擇2008年到2017年,檢索時間截至2017年12月3日。剔除通知、訪談以及與編輯出版學無關的文獻後,共得到336篇有效文獻。

2 統計結果與分析

2.1 我國編輯出版學領域數據科學文獻發表時間分布及期刊載文情況

統計各年度文獻發布數量,繪製編輯出版學領域數據科學研究的發文量時序分布曲線圖(見圖1),統計、繪製15種期刊的數據科學相關文獻載文量分布情況(見圖2)。

從圖1和圖2可見,自2013年始,數據科學引起國內編輯出版學領域研究人員的關注,並持續至今。《科技與出版》《出版廣角》《出版發行研究》《出版參考》《中國出版》《編輯之友》《出版科學》等刊物更為關注該領域的研究進展。

為更清晰地梳理編輯出版學領域數據科學研究的發展軌跡,筆者運用Citespace軟體提取2008—2017年間各年度詞頻最高的30個關鍵詞,繪製高頻關鍵詞共現時區圖(見圖3)。

圖3 我國編輯出版學領域數據科學研究高頻關鍵詞共現時區圖

筆者以發表論文數量變化時間為節點,將編輯出版學領域數據科學研究分為兩個階段:起步階段(2008—2012年)與發展階段(2013—2017年)。

起步階段(2008—2012年)。這一階段相關文獻數量較少並且發展緩慢,這是該時段數據科學剛滲透到其他學科領域並且自身仍處於緩慢發展階段所致。這一時期,研究的重點在於行業數據的存儲與利用,主要關鍵詞有:數據倉庫、讀者資料庫、數據挖掘、出版業、電子商務、網路營銷。這一階段是編輯出版學領域數據科學研究的探索階段,學者指出行業數據在出版發行業務中的重要性,構建數據倉庫的具體模型,並在此基礎上,提出通過數據挖掘方法優化庫存管理和營銷的策略。

發展階段(2013—2017年)。從圖3可見,2013年大量有關數據科學的關鍵詞湧現,大數據技術快速發展並成為編輯出版學領域數據科學研究駛入快車道的加速器,研究成果數量持續增長。此時,出版業遭遇互聯網的強烈衝擊,轉型升級成為出版業突破困局的途徑。2013—2014年,大數據、數字化轉型、傳統出版、科技期刊、社交媒體等關鍵詞突現,這一時期學者關注的重點是如何使用數據科學方法從宏觀上指導出版業的數字化轉型。2015年之後,隨著轉型升級步入深水區,版權保護、知識服務、大數據出版、選題策劃、精準營銷、媒體融合等關鍵詞成為研究熱點,研究人員開始將數據科學方法用以解決轉型升級過程中的具體問題,而人工智慧等關鍵詞的出現則說明數據科學新技術仍在不斷被納入。

2.2 核心作者及機構分布

據統計,共有473位作者進行數據科學相關研究,其中,436位作者僅撰寫或參與撰寫1篇論文,占作者總數的92.2%,而洛特卡定律指出寫一篇論文作者的數量約佔所有作者數量的60%[6]。可見,在編輯出版領域中開展數據科學相關研究的高產作者群體尚未形成,臨時性的研究者占絕大多數。根據普賴斯定律得到核心作者發文量最小值計算公式為T=0.749×,其中Pmax為最大發文量。統計得到最大發文量Pmax=4,代入核心作者發文量最小值計算公式得到T=1.498,故將發文量不少於2篇的37位作者確定為編輯出版學領域開展數據科學研究的核心研究者(見表1)。由表1可見,截至目前,程忠良、徐麗芳、劉銀娣、瀋陽、石佳靚、向安玲、張炯等人,是目前我國編輯出版學領域數據科學研究較為活躍的研究人員。

此外,共有288家高校及科研機構在編輯出版學學術期刊上發表數據科學相關主題的論文(見表2)。從表2可知,武漢大學信息管理學院發文量為22篇,排位第一;緊隨其後的有中國人民大學新聞學院10篇和南京大學信息管理學院10篇。據此可見,這3家機構是國內編輯出版領域開展數據科學相關研究的重要基地。值得注意的是,在表2列出的研究機構中,除有12家高校外,還有6家出版社和1家研究院。可見,在編輯出版學領域,學界和業界均意識到數據科學的重要性並積極開展相關研究。但從發文量來看,高校仍是該領域開展數據科學的主要研究力量。

3 研究主題、熱點及趨勢分析

3.1 研究主題廣泛,數據科學作為研究思想和研究方法被引入編輯出版學領域

為真實反映研究者對特定關鍵詞的共識度,本文對關鍵詞進行規範處理,而未對關鍵詞進行相似詞合併或刪減等操作。統計得到814個關鍵詞,其中詞頻不少於5的高頻關鍵詞有31個(見表3)。可見,編輯出版學領域數據科學的研究主題分布較為廣泛。

結合關鍵詞詞頻統計與關鍵詞共現知識圖譜(圖4)可知,大數據、數字出版、數據挖掘、科技期刊、出版業、傳統出版、精準營銷等關鍵詞處於網路譜圖的核心位置,是編輯出版學領域數據科學研究的核心內容。另外,根據關鍵詞與共現關係出現的時間統計,大數據、數字出版、精準營銷等研究內容自2013年來一直受到研究人員關注。近年,隨著數據科學與信息技術的發展,虛擬現實、人工智慧等新技術和數據科學的研究方法也被引入編輯出版學領域。

圖4 我國編輯出版學領域數據科學研究關鍵詞共現知識圖譜

3.2 研究熱點集中於數據挖掘與存儲、大數據應用及與數字出版的協同發展

通過Citespace聚類功能可將高頻關鍵詞知識圖譜化成若干聚類,用以揭示研究熱點。知識圖譜通過聚類計算後,得到聚類模塊度Q=0.656,輪廓值S=0.6655,因此聚類有效。筆者進一步使用聚類標註功能,使用不同顏色對規模大於10的聚類進行標註,共得到6個聚類(圖5),通過將聚類信息整理、歸併,可將數據科學在編輯出版學領域的研究內容劃分為3個主題。

圖5 我國編輯出版學領域數據科學研究熱點聚類圖譜

主題一是圍繞數據存儲與挖掘的研究。隨著Web2.0時代的到來,用戶逐漸成為市場的中心,大量用戶數據及對數據的解讀對出版社來說日益重要。數據是數據科學的基礎,若沒有良好的資料庫建設,後續的數據分析也將是空中樓閣。以數據存儲為中心,是編輯出版學領域數據科學研究的基礎階段。在這一階段,學者主要圍繞資料庫的作用、儲存數據類型、數據收集方式、數據維護等問題展開討論[7-8]。在如何解讀數據的問題上,研究者沿襲了數據挖掘的經典方法,並指明數據挖掘在出版發行工作中的重要作用。數據挖掘有別於傳統的數據分析方法,旨在通過特定演算法從看似冗餘與繁雜的數據中發現隱藏的信息。出版社使用數據挖掘中的關聯分析,可以對客戶和出版產品進行分類與關聯,了解消費者需求變化並進行有針對性的促銷活動,達到提高出版品質與減少庫存積壓的目的[9]。除提出優化出版社業務策略外,也有研究者構建了一種客戶信息挖掘模型,以解決圖書電子商務中的個性化推薦與精準營銷的問題[10]。

主題二是出版業大數據的應用研究。大數據技術引領著時代變革,研究人員開始思考大數據時代的特徵是什麼,出版業在此時代背景下將迎來何種挑戰,又能在哪些方面實現自我突破與革新[11-13]。在大數據時代,新興技術的發展使人們對海量數據的應用成為可能,數據逐漸成為重要的生產要素。數據技術將引領新一輪生產率增長與消費者盈餘的浪潮,結合大數據在國內外社會生產的實際運用,出版業大數據的應用將對出版的生產模式、商業模式進行重塑,對整個出版業的變革產生深刻影響[14]。但大數據的4V特點使得出版業構建大數據應用平台成為難點,而使用雲計算服務無疑是推動出版業大數據應用落地的有效途徑[15]。新技術的加持給出版業帶來前所未有的發展機遇,使得如精準營銷、出版品牌塑造、圖書虛擬社區等的效果得到有效提升,而打破傳統思維模式、應對新興技術帶來的風險成為出版業在發展過程中面臨的挑戰[16-18]。隨著數字化與信息化、互聯網與移動互聯網的發展,媒介之間的界限越發模糊,媒體融合成為傳統出版業轉型升級的重要途徑。面對未來媒體呈現的「脫媒化」「媒體化」「無界化」「人—機—數一體化」的趨勢[19],出版業在發展過程中應更加註重利用數據科學技術了解用戶心理及行為[20]、分析產品傳播效果,以數據與知識為基礎,尋找新型盈利模式[21]。除圖書出版產業外,亦有研究者從數據科學的角度對期刊產業的轉變與發展做了深入的探討[22-24]。

主題三是數據科學技術與數字出版產業協同發展研究。研究內容主要集中於數據科學技術對數字出版產業的影響及其在數字出版產業中的發展與應用。大數據不僅是技術,更是一種思維模式,以大數據技術為基礎的精準營銷與個性化服務將成為數字出版產業的發展趨勢,大數據模式亦將帶來出版業思維觀念、知識結構與組織結構的變更[25-26]。也有學者提出,大數據等新興數據科學技術的應用對出版業的產業重構產生深刻影響,並利於對出版業在實施大數據戰略中從數字化轉型、數據整合能力、讀者行為、數據所有權和出版業自身能力建設五個方面作前瞻性的思考[27]。數據科學作為一門正在快速發展的新興學科,如虛擬現實、人工智慧等不斷產生的數據科學新技術,豐富了知識傳播的形式,使浸入式閱讀在數字領域得以大顯身手[28]。人工智慧技術在內容生產、個性化內容推送與讀者互動等方面的應用,也將帶來出版業運營模式的變革[29-30]。

3.3 人工智慧與知識服務成為下一階段的研究趨勢

隨著信息技術與互聯網技術的快速發展與應用,編輯出版學領域不斷融入數據科學的思想及研究方法,從而帶來新的研究方法與思路。從最初討論行業數據對出版發行工作的輔助與優化,到研究大數據時代編輯出版業的現狀與困局,再到如何應用數據科學技術促進出版業的變革與為轉型升級提供解決方案,數據科學在編輯出版學領域的研究經歷了從簡單到複雜、從發現問題到解決問題的發展。從發展趨勢來看,人工智慧、知識服務等在編輯出版領域催生出的新型內容生產與運營盈利模式仍需學界與業界進一步研究,並將成為未來一段時間研究的熱點。

4 結 語

本文基於15種編輯出版學領域的學術期刊在2008—2017年期間刊發的數據科學相關文獻,試圖描述並釐清其間數據科學在編輯出版學領域的研究現狀、熱點、發展脈絡及趨勢,研究結果發現:數據科學的研究群體成員流動性較高,核心研究群體薄弱;學界和業界均意識到數據科學思維與技術的重要性,並將其用於解決科研問題和指導社會生產;在媒體融合的新環境下,將數據科學新興技術應用於新型生產與盈利模式將成為未來的研究重點。

參考文獻

[1] Naur P.Concise survey of computer methods[M].New York:Petrocelli Books,1974.

[2] 王曰芬,謝清楠,宋小康.國外數據科學研究的回顧與展望[J].圖書情報工作,2016,60(14):5-14.

[3] 趙蓉英,魏明坤.國際數據科學演進研究:基於時間維度的分析[J].圖書情報知識,2017(4):71-79.

[4] 朝樂門,盧小賓.數據科學及其對信息科學的影響[J].情報學報,2017,36(8):761-771.

[5] 楊曉新.數據科學視域下的出版學研究方法[J].出版科學,2017(6):46-50.

[6] 邱均平.信息計量學(六)第六講文獻信息作者分布規律:洛特卡定律[J].情報理論與實踐,2000(6):475-478.

[7] 徐秀花,程曉錦,李業麗.基於數據倉庫的出版決策支持系統研究[J].北京印刷學院學報,2008,16(4):49-51.

[8] 李寶玲.談出版物網路營銷中讀者資料庫建設的相關問題[J].北京印刷學院學報,2010,18(1):47-48.

[9] 劉曉峰.出版數據挖掘關聯分析[J].科技與出版,2008(1):50-51.

[10] 王亮,孫昱.圖書電子商務中的客戶信息挖掘[J].科技與出版,2012(10):99-101.

[11] 張濤甫.大數據時代的出版困局及其突破[J].編輯學刊,2013(2):6-10.

[12] 周煜.大數據時代出版行業發展趨勢分析[J].中國出版,2014(7):19-22.

[13] 石佳靚.大數據:出版產業的機遇與實踐[J].中國出版,2014(11):44-47.

[14] 鄧佳佳.大數據時代出版業的演進與變革[J].中國出版,2014(23):52-55.

[15] 劉燦姣,葉翠.基於雲計算的出版企業大數據服務研究[J].出版發行研究,2013(11):59-62.

[16] 於春生.大數據時代圖書電商的機遇與挑戰[J].中國出版,2013(19):42-45.

[17] 姚寶權.大數據時代出版品牌塑造與提升[J].中國出版,2014(11):48-51.

[18] 徐淑欣,徐麗芳.閱讀社交網站與圖書發現[J].出版參考,2013(24):52.

[19] 向安玲,瀋陽.全息全知、全能:未來媒體發展趨勢探析[J].中國出版,2016(2):3-7.

[20] 程忠良.大數據時代出版業「三維空間」關係鏈一體化經營策略分析[J].編輯之友,2013(9):12-15.

[21] 李金秋.新媒體時代傳統圖書出版的生存發展之路[J].出版廣角,2015(5):95-97.

[22] 吳鋒.「大數據時代」科技期刊的出版革命及面臨挑戰[J].出版發行研究,2013(8):66-70.

[23] 周小華.「大數據」時代中國學術期刊的轉型與發展機遇[J].科技與出版,2014(4):102-104.

[24] 楊松迎,王志鴻,曹榮章.科技期刊數字內容的挖掘與服務:以《電力系統自動化》為例[J].中國科技期刊研究,2017,28(28):145-150.

[25] 孫玉玲.大數據時代數字出版產業的發展趨勢[J].出版發行研究,2013(4):5-8.

[26] 劉鯤翔,杜麗娟,丁雪.大數據技術在數字出版中的應用前景展望[J].出版發行研究,2013(4):9-11.

[27] 吳贇.產業重構時代的出版與閱讀:大數據背景下出版業應深度思考的五個關鍵命題[J].出版廣角,2013(12):32-36.

[28] 李晶晶,汪薇.新技術與新出版:技術雙擎推動下的出版業變革與重構[J].中國出版,2017(14):20-24.

[29] 徐麗芳,樂征帆.機器學習:出版業的下一個引爆點?[J].出版參考,2017(1):25-27.

[30] 王亮.人工智慧技術環境下新聞出版業運作模式創新[J].出版參考,2017(9):9-12.

|作者單位

羊晚成 楊丹丹

武漢大學信息管理學院,430072,武漢

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技與出版 的精彩文章:

特別策劃│融合創新,春潮湧動:2017年出版新媒體盤點

TAG:科技與出版 |