(北京時間記者 熊維熙報道)
近日,由“北京大學—字節跳動數字人文開放實驗室”研發的古籍數字化平台“識典古籍”測試版正式上線。目前,該平台涵蓋390部經典古籍,主要來自《四部叢刊》,共計3000多萬字,并在當日向公衆免費開放。據了解,上述實驗室系今年3月北京大學與字節跳動合作成立,将人工智能技術應用于古籍資源的智能化整理。“識典古籍”平台上線,是雙方合作的最新進展。
當前,我國的古籍數字化還處于初級階段,面臨技術難度高、資金缺口大、人才緊張等難點。相關資料顯示,現存的20多萬種古籍中,隻有8萬種完成影像數字化掃描,近4萬種完成文本數字化。據專家統計,從1949年到2019年,國内共修複整理出版古籍近3.8萬種,要将現存古籍全部修複整理出來,可能需要300年時間;若利用人工智能技術輔助修複整理,大概二三十年就能完成。
“識典古籍”項目負責人現場講解
據“識典古籍”項目負責人介紹,平台當前主要使用了三種技術,包括文字識别、自動标點和命名實體識别。文字識别技術,是對古籍的影印版文字進行單個切分,再進行文字識别和順序識别;自動标點技術,是通過序列标注的方式對古籍自動進行标點劃分;命名實體識别技術,則是通過序列标注識别文本中的人名、地名、書籍、時間、官職等信息。據悉,目前行業内OCR識别準确率平均為93%至94%,“識典古籍”的準确率為96%至97%。
未來,“識典古籍”将向全社會開放古籍閱讀檢索研究能力,還将實現全自動整理校對,更高效地實現存量古籍全部數字化。同時,平台也鼓勵擁有文獻的學者自行上傳文獻,用戶甚至可參與再創作和再闡釋,助力古籍文化傳承和研究。
在活化方面,抖音平台推出“尋找古籍守護人”計劃,旨在激勵創作者通過音樂、說書、繪畫、複原美食等形式,普及古籍知識、演繹古籍内容,讓古籍鮮活起來。未來三年,“識典古籍”将陸續完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,屆時将全部免費開放。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!