是什麼捆住了古籍數字化的手腳?
「我們做古籍資料庫,會像做紙書一樣,世世代代做下去。」在上海舉辦的一場「信息時代:古史研究的新思路」研討會上,中華書局總編輯顧青這樣表示。
2014年,中華書局首次推出古籍資料庫產品,定名為「中華經典古籍庫」。第一輯收錄了近300種中華書局出版的整理本古籍圖書,涵蓋經史子集各部,包含了「二十五史」、「通鑒系列」、「新編諸子集成」、「清人十三經註疏」、「史料筆記叢刊」、「學術筆記叢刊」、「古典文學基本叢書」、「佛教典籍選刊」等經典系列,總計約2億字。「建立在中華書局點校本基礎上,這個資料庫的質量比較高,查閱也比較方便,被吐槽最多的是數據太少」,顧青坦言,這個初期產品遠不能符合海量數據要求,為此,中華書局成立了專門的子公司古聯公司,專攻古籍數字化,目前,「中華經典古籍庫」已收錄1274種古籍,約7.5億字,幾乎囊括中華書局成立至今出版的所有質量較高的整理本古籍,中華書局以外出版社出版的古籍經典也被逐漸收入,最終規模有望達到30億字,約3、4000種古籍。
古籍數字化,對今人的研究發揮了什麼樣的作用?華東師範大學古籍研究所所長顧宏義用了一個誇張說法,「如果不打開資料庫,簡直不知道如何進行研究。」在很多學者看來,互聯網改變了做學問的方式,古籍數字化讓學術研究發生了革命性變化,「沒有冷僻、查不到的史料,只有打開、查找資料庫的方式和路徑不對。」顧宏義說,陳寅恪一代的學人有「童子功」,可以憑藉記憶寫出引文的大意,而現代學術對於引文的規範更加嚴格,今人的舊學底子也遠不及前輩,這就需要權威、準確、可以直接徵引的資料庫。然而,資料庫的出現並不意味著對於史料的閱讀、掌握可以預設。「過去我們做學生時,導師表揚一篇論文,可能包括『史料很豐富』,而現在的問題往往是史料太豐富了,一看就知道是從某個資料庫中拉下來的。文獻與文獻之間的關係,哪些更為重要,需要資料庫有更為科學的檢索方法,也需要查詢者有更強的閱讀和辨別能力。」
華東師範大學古籍研究所所長顧宏義
古籍數字化有非常廣闊的運用天地,除了「中華經典古籍庫」這樣面向學術界的產品,在教育等很多領域也有可為空間。中華書局正在開發一款針對普通讀者的古籍數字化產品,計劃收錄500種經典古籍、1000篇經典古文,包含注釋和翻譯,力求人人都能看懂。顧宏義則「爆料」,他的同事、華東師範大學古籍研究所副研究員方笑一在擔任《中國詩詞大會》命題專家時,就是利用「中華經典古籍庫」查找核對各類資料。
古籍數字化發展空間巨大,但顧青坦言,推廣「中華經典古籍庫」仍然步履艱難,「市面上類似的資料庫非常多,很多比我們做得早、數據量也更大」。然而,這些資料庫的通病是基本都是未經標點的原始版本,錯訛較多。「我的看法是,古籍整理的資料庫一定要以古籍整理的標準為原則,有些資料庫採用自動識別技術,正確率達到99%,看似不錯了,但一般出版物的差錯率只有萬分之一。」顧青形容,目前古籍數字化的網路生態「近似於叢林社會」,「弱肉強食、沒有法則」,「有些公司上門來推銷他們的資料庫,一看,這裡頭有的書就是從我們這兒扒的」。
中華書局總編輯顧青
在顧青看來,版權問題是困擾古籍數字化的一重困難,其次還是經費問題,「看起來錢很多,實際上還是投入不足」。他介紹,古籍數字化分為三類,一是古籍保護的數字化,即原物掃描、原樣複製,多為圖書館層面進行;其次是古籍整理的數字化,其成果可以作為文本來使用,「中華經典古籍庫」即屬此類;再次是古籍應用的數字化,包括開發國學應用遊戲、教育軟體等等。這其中,尤以古籍整理的難度最高,投入仍嫌不足,「只有懂古籍的人才能做好古籍,而在古籍整理的數字化中,偽專家、假行家太多了。」
「中華經典古籍庫」的遠景定位是」體現新中國成立以來古籍整理的全部成果」,不僅中華書局出版的每一本紙質書都將儘快做成電子書和資料庫進行分享,也要收入其他出版社的優秀資源,「拿到授權和數據」。目前,鳳凰出版社、齊魯出版社、華東師範大學出版社等6家出版社已經加入「中華經典古籍庫」,作為國內古籍整理的另一大巨頭,顧青介紹,上海古籍出版社與「中華經典古籍庫」的合作也在商談之中,有望以股份制合作形式展開。
「不斷長大——數據越來越多,準確可信,活的——功能越來越豐富強大」,在顧青看來,一個符合時代需求的古籍資料庫必須符合以上三點要求。能否有一個權威的資料庫結束目前市面上各色資料庫雜亂、差錯頻頻的局面?顧青笑道:「目前的形勢下,正版資料庫能活下去就好,不敢奢望『滅了別人』。但我們會努力做下去的。」(文/施晨露 )
TAG:上觀新聞 |
※數字化意味著什麼?
※把古典油畫做這麼數字化,真的好嗎
※數字化意味著什麼?也來談談數字化
※跑那麼慢可抱不住數字化大腿哦
※人走房空的古村能用數字化拯救嗎?
※數字化轉型還是數字優化,這是一個艱難的選擇
※垃圾文字堆積如山,讀什麼能擺脫數字化痴呆,你知否?
※數字化是阿里巴巴的萬能葯?
※男裝定製這些數字化你了解多少?
※哈佛教授:數字化痴呆——數字時代孩子的必然疾病
※GE甩手數字化 西門子卻不斷加碼?
※為什麼網路轉型是數字化轉型的基礎?
※拿什麼擁抱你,我的零售數字化時代?
※區塊鏈倉單落地,意味著什麼?意味著「存貨票據化,資產數字化」
※數字化潮流擋不住!愛馬仕終於開始在網上賣手袋
※數字化,到底是個什麼鬼?氣電篇
※未來是什麼樣的?數字化之後的美術館又將走向何方?
※信息數字化、業務數字化與數字化轉型的本質是什麼?
※為什麼要轉型數字化?因為手機變成了移動終端
※數字化保護的毗盧寺壁畫!美到沒朋友!