人工智能我其實離你不遙遠-tft每日頭條

人工智能我其實離你不遙遠

生活更新时间:2026-07-31 10:19:56

#北大聯合字節上線免費古籍閱讀平台#

人工智能改變古籍存續形式

“整理國故，再造文明”，胡适在一百年前說。國故也即是古籍，古代的書，一般指1911年之前曆朝寫本、刻本、稿本、拓本等。這些紙質文獻在悠悠曆史長河中其命運可謂颠沛流離。紙質古籍損毀是不可逆轉的。如明代《永樂大典》，永樂時期的原本已經完全湮滅不見，嘉靖重抄本11000冊現存不到5%。這樣的損失難以估量。

哲學家羅素曾說：“中華文明是唯一的曆史文化從未間斷的文明。”古籍作為中華文化的一支重要血脈，便是文明未斷的依據之一，今年，國家圖書館藏清宮“天祿琳琅”曆時8年修複成功，在标準的存藏條件下，能保存200年。

盡管古籍原生性保護有很大改善，但依然改變不了“紙”的脆弱。2015年年初，位于莫斯科西南部的俄羅斯科學院社會科學信息研究所圖書館突發火災，約有200萬冊文獻資料遭到損毀。俄羅斯科學院院長稱“這是俄羅斯科學界的切爾諾貝利事件”。

在很多人的印象裡，古籍文本往往艱澀難懂，而且接觸機會不多。但在數字時代，這種情況正在發生轉變，目前數字化、平台化、智能化成為古籍“再生性”保護的方向。在國外，哈佛燕京圖書館和美國國會圖書館，已經将他們收藏的中華古籍掃描完成，并對外公開。但它們僅僅是圖片掃描版，并未利用智能技術實現文本化，無法複制粘貼，隻能服務于少數研究者。

國内較為有名的古籍智能平台，如“漢典重光”古籍平台，讓一批珍藏于加州大學伯克利分校的中文古籍善本，以數字化的形式回歸，該平台涵蓋的古籍數量為20萬頁。再如浙江大學的“古籍智慧平台”，其利用OCR光學字符識别技術，将圖片中的文字換成文本格式，它的識别準确率在90%以上。

這些平台有着各自的優勢，但也各有各的局限性，如網速慢、智能化程度低。比如“書同文古籍數據庫”收費較高，“中國哲學書”電子化計劃目前囊括了超過三萬部著作，用戶卻常常無法正常訪問。

今年3月，字節跳動與北京大學聯合成立“北大——字節數字人文開放實驗室”，雙方協作研發推出古籍數字化平台——識典古籍。10月，識典古籍測試版已上線，目前，已整理上傳390本古籍經典（均為四部叢刊書目），3000卷，3000多萬字，預計在3年内将整理10000種古籍，基本覆蓋儒家、道家和佛家的經典書目，對用戶免費開放。

人工智能我其實離你不遙遠（當人工智能遇上）1

識典古籍平台主頁面截圖

古籍是如何實現數字化的？

識典古籍有何技術特點？項目負責人介紹，識典古籍主要運用了三種技術，文字識别、自動标點、命名實體識别。

文字識别技術，即使用OCR技術對古籍的影印版文字進行單個切分、文字識别、順序識别。所謂文字切分，是指古籍掃描件中的單字檢測技術，能夠獲取每個字符的具體位置；文字識别，将切分的圖片送入文字識别模型，獲取每個文字的具體編碼；順序識别，結合文字内容和文字位置，獲取整張古籍掃描件的閱讀順序。

人工智能我其實離你不遙遠（當人工智能遇上）2

古籍數字化過程視頻截圖

OCR的應用流程，是用電子設備對紙本古籍進行掃描，内容轉錄到計算機中，并生成相應的數字文檔，效率與人工錄入不可同日而語。目前行業内OCR識别準确率平均為93%至94%，識典古籍的準确率為96%至97%。

自動标點技術，是通過序列标注的方式對古籍自動進行标點劃分，支持“，。？！、：；”七種常用标點。舉例來說，“學而時習之不亦說乎”，自動标點後的結果是“學而時習之，不亦說乎？”命名實體識别，則是通過序列标注識别古籍文本中的命名實體，支持識别人名、地名、書籍、時間、官職這五種類型的實體。

人工智能我其實離你不遙遠（當人工智能遇上）3

自動标點技術解析視頻截圖

人工智能識别的工作完成後，為了方便用戶閱讀，整理平台要進一步對成型的文本進行整理。

首先，是對3%和4%錯誤率進行人工修改，分出段落和标題，然後再賦予不同的格式。而對于不同質量的古籍文獻，整理标準不一，人力承擔着不同的職能，大緻流程為制定整理标準、人工整理、審核、上架，相關管理者是有古籍知識經驗的北大團隊。

其次，是對用戶訪問數據進行統計。然後是資源管理的功能，用戶可以更清晰地看到每本書的基礎信息，具體内容，以及當前所處的整理狀态。

最後，将古籍劃分等級，如經典書目、常讀書目、基礎書目，像《論語》這種經典書目，對正确率、标點和注釋的要求都較高。負責人介紹，目前這些功能有的已經成型，有的還需要進一步增強，古籍數字化并非易事。

古籍數字化的現實困境

中國是全球擁有古籍最多的國家，國内現存漢文古籍300萬部，散居在海外的古籍超過40萬部，它們依然面臨着衰朽，而已完成數字化的古籍為7.4萬部，數字化進程仍處于初步階段。

其中面臨幾大難點。首先是部分古籍在數字化之前要先完成修複，但古籍修複工序複雜，難以完全用科技手段，且培養古籍修複人員需要極高的時間成本。其次，花費高昂，有專家估算，如果将全國尚未數字化的古籍全部數字化，采集、組織、加工、存儲、管理等費用大約需要60億元。第三，技術難度高，現有的數字化很多是由縮微膠片轉換而成，呈黑白影像且分辨率較低，難以切實滿足讀者的需求。

過去，古籍内容轉化為數字文本主要依靠專家人工錄入，耗時費力。北京大學數字人文研究中心主任王軍算過一筆賬：我國現存古籍約有20萬種，從1949年到2019年，共修複整理出版了近38000種，要将現存古籍全部修複整理出來，可能需要三百年的時間。若利用人工智能技術輔助修複整理，大概二三十年就能完成。

相關負責人介紹說，目前古籍的使用人數衆多，一些高校斥資買古籍數據庫，但是訪問不是很方便。建立數字化平台，各類學科的專業人士能更容易查看古籍文獻。一些潛在的古籍愛好者，數字化平台可将這部分用戶迅速連接起來。

目前，識典古籍測試版的句讀錯誤率在3%到4%，文字識别也有一定的錯誤率存在，影響閱讀體驗。在人工智能機器學習一段時間後，準确率将會提升到98%左右。

人工智能我其實離你不遙遠（當人工智能遇上）4

古籍修複師在工作

作為北京大學-字節跳動數字人文開放實驗室的成員，王軍有着豐富的古籍數字化經驗，他曾研發過“《宋元學案》知識圖譜可視化系統”，對240萬字的《宋元學案》進行了文本處理和分析，将2000多位宋元理學學者、近100個學術流派所涉及的人物、時間、地點、著作等提取出來構造成知識圖譜。

據他介紹，對于識典古籍的開發和應用，北京大學主要從三方面入手，第一，聯絡國内的圖書館尋求公版資源，保障版本的正當性；第二，聯系北師大、複旦、南大、陝西師大等高校的學者和文獻專家，進行人工審核與校對，彌補人工智能有識别錯誤率的短闆；第三，北大利用自有的學術平台，鍊接學術界和高校的年輕用戶，對識典古籍進行推廣。

古籍保護的更多可能

字節跳動旗下有多個信息分發平台，沉澱着大量關于内容平台的經驗和技術，這些技術可以逐漸向古籍智能數字化的方向上遷移。過去半年，識典古籍技術開發團隊整合了包括字節跳動人工智能實驗室、今日頭條的設計團隊和抖音的開發、測試團隊成員加入，其中有不少是古文獻專業和文史哲專業的成員。

識典古籍在使用性上強調用戶體驗，網頁打開流暢。主頁有檢索欄，用戶可直接搜索書目；右上方是書庫，點進去可看到經、史、子、集四個欄目；下方是古籍書樣，如《周易》、《荀子》、《左傳》，主頁下方是“儒家經典”“道家經典”“文學經典”三個欄目。點開一本書，左邊是目錄，右邊是正文，上方有四個功能項，依次點擊可看到古籍原本的影像、注疏、繁簡字體切換以及書庫，且每部古籍都有精校和粗校的标簽提示。

人工智能我其實離你不遙遠（當人工智能遇上）5

點開古籍呈現出的界面

目前識典古籍隻有網頁版，相關技術負責人預測，今年11月份識典古籍将會推出移動端，到時會鍊接到抖音和今日頭條，活化更多的古籍内容。

在數字化之外，一年多來，字節跳動在古籍修複和活化上也有所進展。現在，字節跳動資助國家圖書館定向修複的珍貴古籍104冊件，現已完成50多冊件，包括一批稀有的樣式雷圖檔。在活化方面，抖音平台推出“尋找古籍守護人”計劃，四大名著、二十四史、四書五經相關的視頻播放量超過600億次，涵蓋漫畫、影視、美食、音樂等多種内容體裁。

古籍承載着中華文明，它的傳播是需要大衆參與。未來，通過識典古籍，向全社會開放古籍閱讀檢索研究能力，還将實現全自動整理校對，更高效地實現存量古籍全部數字化。同時，鼓勵擁有文獻的學者自行上傳文獻，豐富平台内容，用戶甚至可參與再創作和再闡釋，與平台形成一種良性互動，助力古籍文化傳承和研究。

校對劉軍

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活玻璃能粘到瓷磚上嘛？
1、玻璃可以粘到瓷磚上，粘之前要把兩個粘接面擦幹淨，不要有水和灰塵，玻璃膠一定要用好的，粘時用透明膠... 2023-07-03
生活日本取暖方式
1、日本冬天沒有暖氣，他們怎麼取暖呢？日本人有一個特殊的供暖方式—爐子被。經常看日劇的人都知道，爐子... 2023-07-03
生活戶口本尺寸是多少厘米
1、居民戶口簿的外頁為塑料皮，大小會有差别，内頁是統一的，内頁長143毫米，寬105毫米，其中所用字... 2023-07-03
生活 jk制服是什麼衣服
1、jk制服是女子高中生制服。來源：JK為日語流行語，意為女子高中生（じょしこうこうせい）。取假名音... 2023-07-03
生活鞋幫發黃了怎麼辦
1、鞋幫發黃，可以到文具店購買一支白色的畫筆，将筆套打開，均勻的将鞋幫發黃的區域進行塗抹。瞬間就能讓... 2023-07-03
生活美刀是美元的意思嗎
1、美元就是美刀的意思，因為美元dollar諧音“刀”，所以美元又被稱為美刀。2、美元：是美利堅合衆... 2023-07-03
生活空調的auto是什麼意思
1、AUTO意思是動空調。空調AUTO是表示動模式，意思就是不管選擇的制冷還是制熱，都是25度以上可... 2023-07-03
生活香氛是什麼
1、香氛就是指的類似香水的液體。同一香型的香氛和香水味道大體一緻，當然香水的原料最精細，味道也最特别... 2023-07-03
生活正能量的短句
1、成功的門往往虛掩着，隻要你勇敢去推，它就會豁然洞開。2、懂得感恩，是收獲幸福的源泉。懂得感恩，你... 2023-07-03
生活比較有意思的網名
1、日最野的狗2、時間是把殺豬刀3、幹凈沒朋友4、一身懵逼正氣5、會笑才不是傻冒6、超級無敵大萌比7... 2023-07-03
生活氧化銀還原成銀的方法
1、首先要了解銀（Ag）在空氣中不會被氧化，它是比較穩定的。在這種情況下，其實隻需要将氧化銀（Ag2... 2023-07-03
生活個人檔案能放在自己手裡嗎？會不會有什...
1、個人檔案能放在自己手裡保管，但是如果檔案在自己手裡，不及時找到單位存或者沒有存到人才市場，那自己... 2023-07-03
生活自學吉他怎麼學
1、吉他一般為左手轉換和弦，右手撥弦。眼睛看譜。2、認識吉他。以這把mystyle吉他為例，弦最粗的... 2023-07-03
生活多春魚是什麼魚
1、多春魚是一種原産于日本的深海魚，它們肚子中一年四季都有魚籽，因此得名多春魚，主要分布在太平洋、大... 2023-07-03
生活抖音上的視頻是用什麼軟件裁剪的
1、我們要裁剪視頻，所以需要裁剪視頻的工具，我們用剪映。在應用商店中下載剪映并打開。打開進入頁面後，... 2023-07-03
生活家庭蒜苗種植方法
1、蒜苗是一種很常見的綠葉蔬菜，都在說純有機無公害蔬菜，可是在外面買的蒜苗有時候就會買到被噴了農藥的... 2023-07-03
生活三月釣鲫魚用什麼餌料
1、九一八+藍鲫+速攻2。這款餌料适合在大型湖泊和水庫垂釣，不僅對鲫魚“投其所好”，還可以吸引其他魚... 2023-07-03
生活身份證哪一面是正面
1、有國徽的一面才是正面，有頭像的一面是反面。2、身份證你了解多少：身份證正面代表的是國家形象和證件... 2023-07-03
生活一點點奶茶五角星棒子怎麼用
1、五角星棒子能輕松的幫助食客們劃開奶茶的封口，喝前取出五角星棍子，沿杯口邊緣輕輕一劃，方便吸管的插... 2023-07-03
生活集體戶怎麼轉個人戶口
1、個人在當地有房産的，可以将戶口遷入房産處;配偶為當地家庭戶口的，可以将戶口遷至配偶處。2、辦理戶... 2023-07-03
生活簡單美白小方法
1、白的基礎是避免紫外線。當到戶外時，在正常時間内必須徹底阻擋紫外線。紫外線隐藏在雨天或陰天，所以外... 2023-07-03
生活農村常見毒蘑菇有哪些
1、毒蠅傘，狗尿苔，緻命白毒傘，鉛綠褶菇，網孢牛肝菌等。2、毒蘑菇是指大型真菌的子實體食用後對人或畜... 2023-07-03
生活五一祝福顧客文案
祝五一快樂、開心、幸福、吉祥。祝福翩翩送給你，輕松愉悅樂五一!點滴提醒，無論多少，假日快樂，分享就好... 2023-07-03
生活行人過馬路的正确方法
1、遵守交通規則。過馬路時要看清交通信号燈，做到“紅燈停，綠燈行”。過馬路要走人行橫道，沒有人行橫道... 2023-07-03
生活夕顔花的花語是什麼
1、夕顔花是8月6日出生的人的生日花，它的花語是名譽。2、夕顔花的寓意并不美好，它代表着年長的女人引... 2023-07-03
生活翻毛鞋髒了怎麼打理小妙招
1、首先是要給鞋面除灰，除完塵以後，再用鞋撐撐起。2、接着用銅絲面處理污漬較重的地方和被磨光的地方。... 2023-07-03
生活代理存款的代理人有記錄嗎
1、存單上寫的代理人，是指存款人本人未能親自到場的情況下，其委托代理人持有存款人的身份證件（有時需要... 2023-07-03
生活棺材顔色有什麼講究
1、古代的棺材主要有五種顔色，分别是黑色、原木色（黃色）、白色、紅色、金色。黑色棺材主要殡葬戰死、早... 2023-07-03
生活褲帶打死結解不開怎麼辦
1、拉緊褲帶，放松繩結部位，順着打結位置慢慢解，需要耐心。2、直接割褲帶。看清繩結中繩子的走向，找個... 2023-07-03
生活菠蘿蜜的汁粘手怎麼辦
1、戴手套切菠蘿蜜。平時切菠蘿蜜時，可以為自己準備一幅一次性的手套，也可以戴家中洗碗用的橡膠手套，這... 2023-07-03

tft每日頭條

> 生活

> 人工智能我其實離你不遙遠

人工智能我其實離你不遙遠

相关生活资讯推荐

热门生活资讯推荐

网友关注