激活數(shù)字服務(wù)平臺,給古籍注入新的生命力
激活數(shù)字服務(wù)平臺,給“養(yǎng)在深閨”的古籍注入新的生命力
古籍,即1912年之前經(jīng)過刻印、抄寫等方式所生產(chǎn)出版的圖書和文獻(xiàn),用來傳承文明、普及教育以及記載歷史,承載厚重的歷史和文化。相關(guān)統(tǒng)計數(shù)據(jù)顯示,我們已完成普查的270多萬部古籍中,僅有7萬多部可供線上閱讀,更多海量古籍文化資源亟待數(shù)字化,這也是當(dāng)下古籍保護(hù)、傳承與開放的重要課題之一。目前上海古籍出版社推出的“匯典·古籍?dāng)?shù)字服務(wù)平臺”引起業(yè)界關(guān)注,該平臺聚合上海、長三角乃至更廣泛地區(qū)出版社的優(yōu)質(zhì)古籍資源,利用最新光學(xué)文字識別(OCR)、自然語言處理、大規(guī)模語料庫和機(jī)器學(xué)習(xí)標(biāo)點等古籍智能算法技術(shù),建設(shè)面向傳統(tǒng)文化與古籍行業(yè)的知識服務(wù)平臺。
“北方有中華書局‘籍合網(wǎng)’,南方有上海古籍出版社‘匯典’?!睆?fù)旦大學(xué)圖書館副館長、中華古籍保護(hù)研究院常務(wù)副院長楊光輝表示,古籍?dāng)?shù)字化對于中華古代文明的傳承、保護(hù)和利用有著積極的促進(jìn)作用,這一平臺一方面可以把上海古籍出版社多年積累起來的古籍文化資源通過數(shù)字化的方式向大眾普及,另一方面也可以加速古籍?dāng)?shù)字轉(zhuǎn)化和出版的流程,推動相應(yīng)出版產(chǎn)業(yè)領(lǐng)域的數(shù)字化發(fā)展。
經(jīng)歷數(shù)十年發(fā)展的古籍?dāng)?shù)字化之路任重道遠(yuǎn)
《上海市全面推進(jìn)城市數(shù)字化轉(zhuǎn)型“十四五”規(guī)劃》指出,要“深化文化大數(shù)據(jù)體系建設(shè),推進(jìn)文化資源數(shù)字化”,在媒介大融合、知識大融通的時代背景下,實現(xiàn)以數(shù)字技術(shù)推動優(yōu)秀傳統(tǒng)文化的傳承創(chuàng)新。古籍?dāng)?shù)字化,是保護(hù)和合理利用古籍的方向。復(fù)旦大學(xué)古籍整理研究所研究員石祥在接受記者采訪時說,“古籍的‘用’和‘藏’之間是矛盾的,誰都想來翻一翻,時間久了必然影響古籍的保護(hù)”,而數(shù)字化之后,古籍“母本”就不用冒著各種風(fēng)險“拋頭露臉”了。同時,“養(yǎng)在深閨人未識”的古籍可以在數(shù)字化之后走出“深閨”,可不受時間、地域限制滿足更多讀者的閱讀需求,實現(xiàn)一對多、點對面、虛對實的變化。
從“將紙質(zhì)書變?yōu)殡娮訏呙璋妗钡摹安杉瘋?cè)”到“將電子掃描版變?yōu)槲淖职妗钡摹吧a(chǎn)側(cè)”,再到“將文字版變?yōu)楣偶袑W(xué)系統(tǒng)”的“應(yīng)用側(cè)”,古籍?dāng)?shù)字化流程并不復(fù)雜。在數(shù)十年歷史發(fā)展中,有兩個分水嶺。其一是上世紀(jì)80年代,美國華裔學(xué)者陳炳藻提出用計算機(jī)統(tǒng)計《紅樓夢》的字詞,計算機(jī)技術(shù)和人文研究逐漸開始結(jié)合。其二是1999年,被譽(yù)為“大型中文電子出版工程的典范書”文淵閣《四庫全書》電子版問世。
在數(shù)十年的發(fā)展中,我國的古籍?dāng)?shù)字化取得一定成效——國家圖書館的“中華古籍資源庫”已在線發(fā)布超過3.3萬部古籍影像;中華書局的“中華經(jīng)典古籍庫”已發(fā)布3000多種、15億字的點校本古籍;愛如生公司的“中國基本古籍庫”收書1萬種,既有可供檢索的全文,又有古籍原版圖像。但與此同時,古籍?dāng)?shù)字化推進(jìn)之路也鋪滿荊棘。究其原因,一方面源于古籍成本,據(jù)上海古籍出版社數(shù)字出版中心負(fù)責(zé)人侯君明透露:“大多古籍獲取成本不菲,此外制作、版權(quán)、平臺開發(fā)以及版權(quán)保護(hù)技術(shù)研發(fā)等方面費用高昂。相對而言古籍?dāng)?shù)字化回報周期卻又比較漫長。”另一方面,根據(jù)全國古籍普查工作要求,要對全部古籍鑒定編目,具體包括書名、卷數(shù)、作者、版本、存卷、冊次、藏印等項目,須逐一厘清,工作量巨大,對編目鑒定者的業(yè)務(wù)水平要求頗高。
事實上,我國目前尚存在大量現(xiàn)有的古籍?dāng)?shù)字化資源呈黑白影像,分辨率較低,難以滿足讀者和研究人員的需要。
加速古籍?dāng)?shù)字轉(zhuǎn)化,利用新技術(shù)整合海量古籍知識體系
上海古籍出版社總編輯呂健表示,古籍整理是一項古老的事業(yè),而數(shù)字化則屬于當(dāng)下,數(shù)字化轉(zhuǎn)型代表著產(chǎn)業(yè)的前沿。在古籍亟待數(shù)字化的當(dāng)下,“匯典·古籍?dāng)?shù)字服務(wù)平臺”的出現(xiàn)猶如一道曙光。這一平臺的OCR系統(tǒng)、自動標(biāo)點與自動標(biāo)引技術(shù)開發(fā)都已初見成效。其中OCR技術(shù)可以迅速識別一本書,準(zhǔn)確率達(dá)93%。達(dá)到理想準(zhǔn)確率的機(jī)器標(biāo)點后,剩下的疑難問題通過專家學(xué)者可以較快完成,把學(xué)者從大量簡單重復(fù)的勞動中解放出來。
有著OCR的文本生成技術(shù)、自然語言處理的文本整理與標(biāo)引等先進(jìn)技術(shù)的加持,大量優(yōu)秀古籍可以在準(zhǔn)確權(quán)威的平臺上與公眾、專業(yè)研究人員面對面,使用效率大幅提高,有力促進(jìn)海量優(yōu)秀傳統(tǒng)文化信息便利快捷有效利用。這一平臺還通過解析上海古籍出版社海量古籍資源內(nèi)容,對其進(jìn)行知識結(jié)構(gòu)化揭示,重構(gòu)原有的古籍內(nèi)容組織形式,并創(chuàng)建全新的知識模塊,實現(xiàn)古籍資源的知識化、專業(yè)化服務(wù)。
通過技術(shù)的加持,從內(nèi)容可利用的深度和廣度上使古籍里的文字快速“活”起來。侯君明表示:“利用新技術(shù)整合海量古籍的知識體系,深入闡釋中華文化的歷史淵源、發(fā)展脈絡(luò)、基本走向,有助于推動有中國底蘊(yùn)、中國特色的思想體系、學(xué)術(shù)體系和話語體系的構(gòu)建。從再生性保護(hù)的角度,古籍?dāng)?shù)字化技術(shù)對中國優(yōu)秀傳統(tǒng)文化的普及、研究與傳承具有重大意義。”
推動古籍的數(shù)字化進(jìn)程,不僅是內(nèi)容的數(shù)字化,更是思維的數(shù)字化。編、印、發(fā)是傳統(tǒng)出版的基本流程,在數(shù)字化項目實踐過程中,這些傳統(tǒng)的工作流程也在逐漸接受來自數(shù)字化思維的積極影響。在楊光輝眼中,普通掃描技術(shù)向三維高清掃描的迭代發(fā)展,互聯(lián)網(wǎng)向物聯(lián)網(wǎng)的轉(zhuǎn)變,古籍?dāng)?shù)字化向數(shù)字人文進(jìn)化,藏在圖書館的書可以通過數(shù)字出版技術(shù),打通虛擬和現(xiàn)實之間鴻溝,傳統(tǒng)館藏資源通過新媒介形成“元宇宙”,也并非遙不可及。
記者 汪荔誠
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。