国内精品欧美视频一区二区-无遮挡国产精品一级二级三级视频-欧美特黄片在线免费播放-中文字幕a级毛片免费视频

資訊中心

電話: 0477-8394929
郵箱: ordoswh123@163.com
網(wǎng)址:www.www.gzdfgk.net
當(dāng)前位置: 首頁 > 資訊中心 > 產(chǎn)業(yè)資訊
AI出手,破解“整理國故”百年難題
時間:2025-04-29 09:20    瀏覽:65次

1919年,胡適在《新青年》雜志上發(fā)起了著名的“整理國故”運動,旨在“研究問題、輸入學(xué)理、整理國故、再造文明”。一個世紀(jì)過去了,整理古籍任務(wù)仍然艱巨。書卷浩如煙海,人才門檻高筑,無不令專家感嘆:“想完成全部古書的整理,可能得300年?!?/p>

而當(dāng)古老的文化載體遇見最年輕的技術(shù)手段,偉大的奇跡或許就會顯現(xiàn)。在機(jī)器學(xué)習(xí)和成千上萬志愿者助力下,一本本塵封的古書被一一翻開。

近日,“我用AI校古籍——我是‘校書官’古籍大眾智能整理計劃(2025年)”(以下簡稱“我是‘校書官’”項目)在武漢大學(xué)啟動。該項目吸納了上萬名志愿者,預(yù)計將在一年內(nèi)整理數(shù)千萬字的古籍,并將整理結(jié)果在“識典古籍”平臺上向大眾免費呈現(xiàn)。

如果說修復(fù)和整理古籍是與時間賽跑,AI就好比戴宗的“神行甲馬”,實現(xiàn)了整理速度的幾何級提升。

從小作坊到流水線,整理速度提升20倍

華東師范大學(xué)古典文獻(xiàn)學(xué)在讀博士生劉帥曾經(jīng)懷疑過AI。2017年他用過古籍整理軟件,感覺其頗為雞肋。然而,2024年9月,當(dāng)聽到“我是‘校書官’”項目借助“識典古籍”平臺,一個月整理了5000多萬字的古籍時,他震驚了:“我一年能整理幾十萬字就很了不起了?!?/p>

“識典古籍”整合了國內(nèi)頂尖AI研發(fā)團(tuán)隊的開發(fā)能力和北京大學(xué)深厚的學(xué)術(shù)積淀。古籍整理被拆分成許多環(huán)節(jié),主要包括文字識別、文字校對、結(jié)構(gòu)整理、標(biāo)點校對等。這些環(huán)節(jié)借助AI,大大節(jié)省了人力。

打開“識典古籍”平臺,上傳一張古籍圖片后,光學(xué)字符識別(OCR)技術(shù)將對圖片中的人名、地名、書名、時間和職官,平臺可以自動標(biāo)記。對于OCR不確定的字,會用不同顏色標(biāo)記出來,便于定位這些文字,然后參照底本修改。在文字精校環(huán)節(jié),可以匹配兩套不同的文本,在文字??杯h(huán)節(jié),可以比較差異、撰寫數(shù)字??庇洝?/p>

北京大學(xué)數(shù)字人文中心副主任楊浩做過測試,AI自動標(biāo)點準(zhǔn)確率超90%,翻譯古文也達(dá)到專家水平?!肮偶畼?biāo)點是一大難點。”劉帥說,如今他遇到疑問,就會去對照“識典古籍”的自動標(biāo)點——有點像圍棋愛好者向AlphaGo學(xué)棋。

楊浩說,傳統(tǒng)的古籍整理以出版為目的,正確率要求極高,相應(yīng)門檻也高,即便古籍專業(yè)的學(xué)生也經(jīng)常出錯,難以獨立承擔(dān)項目。大部分項目都是一個專家負(fù)責(zé)一種書,從頭做到尾,因此效率很低。

現(xiàn)在有了機(jī)器學(xué)習(xí),AI在閱讀大量人類成果后,對古文具備了相當(dāng)?shù)摹罢Z感”。在“我是‘校書官’”項目中,AI先初步整理古籍,逐字校對,再由大眾志愿者來校對,最后把難點提交給專家?!癆I改變了工作流程,分包制度降低了門檻,傳統(tǒng)的手工作坊變成流水線工廠了?!眲浾f。

AI的應(yīng)用讓對古籍感興趣的人都可以參與進(jìn)來?!拔沂恰佟表椖恳劳小白R典古籍”平臺,由全國22所高校承辦,現(xiàn)已有數(shù)以萬計的學(xué)生報名,許多人的專業(yè)可能與古籍無關(guān)。在去年的“我是‘校書官’”項目中,志愿者按水平被分為大眾組和進(jìn)階組,前者負(fù)責(zé)粗校,后者負(fù)責(zé)精校。大眾組已粗校整理了1643部古籍,進(jìn)階組精校整理了共計2451萬字。

2024年9月,劉帥也參加了“我是‘校書官’”項目,頭一個月初步整理出200萬字的古籍,這是過去速度的20倍。接下來他每天抽出兩三個小時,一個月就整理完一部49萬字難度頗大的古籍,而且整理質(zhì)量很高。整個項目3個月,劉帥校點、標(biāo)注、排版、審閱的書一共191種,總字?jǐn)?shù)達(dá)500萬以上。

辨識“廬山真面目”,正確率節(jié)節(jié)攀升

把古籍從圖書館庫房搬到電子資源平臺,實現(xiàn)整理速度幾何級提升,主要歸功于AI“識古”的智慧——它能讀出黯淡缺損的古書,或解讀晦澀難辨的符號。

以前,古書很難數(shù)字化。傳統(tǒng)的文字識別軟件是為打印材料設(shè)計的。對于識別古書,機(jī)器經(jīng)常“傻眼”:一個字往往有不同寫法,字體風(fēng)格不一樣,書中還有并非漢字的筆畫符號。另外,古書經(jīng)常有折痕和破損缺字,墨跡黯淡,這也是為什么各大圖書館的古籍?dāng)?shù)字化多年來進(jìn)度緩慢、嚴(yán)重依賴人工的重要原因。

培育專業(yè)“識字匠”往往需要多年時間,但有了機(jī)器學(xué)習(xí),一些有難度的辨識工作,可由AI代勞。

國際上,AI復(fù)原龐貝古卷的成就,讓人們對其潛力充滿信心。公元79年被火山灰掩埋的赫庫蘭尼姆莎草卷軸已經(jīng)碳化,無法展開。通過CT影像,人們得到了卷軸上微弱的墨水痕跡圖像,但仍然無法識別。3位年輕人通過機(jī)器學(xué)習(xí)技術(shù),從圖像里推斷出超2000個字符,連起來是一段與伊壁鳩魯哲學(xué)有關(guān)的文字。這一消息于2024年發(fā)布后,讓國際古典學(xué)界非常興奮。

AI辨識那些塵封已久的破舊古籍,有點像AI修復(fù)老照片。2024年,“我是‘校書官’”項目采用AI技術(shù)修復(fù)上千年前的敦煌古卷《漢書·刑法志》。AI學(xué)習(xí)了原版古籍的文字、筆畫風(fēng)格和頁面紋理,把缺損文字按原來的字體、色彩、背景修復(fù)還原,最大程度確保與原古卷一致。另一個AI項目則補(bǔ)全了殘缺的《蘭亭序》清晰樣貌,其筆畫細(xì)節(jié)遵照王羲之的技巧風(fēng)格。

“我們設(shè)置了‘追溯原本’功能,有疑問的話可以一鍵找到原文進(jìn)行人工比對、校準(zhǔn)?!倍兑艏瘓F(tuán)企業(yè)社會責(zé)任部古籍項目產(chǎn)品負(fù)責(zé)人王宇介紹,他們正在針對識別手寫字、異體字、復(fù)雜版式、插圖等精進(jìn)算法,力求不斷提升正確率。

全國高等院校古籍整理研究工作委員會副秘書長吳國武說,提高AI水平還需要更優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)。比如,一些已有的整理本,版權(quán)在整理者、出版社?!耙胩嵘鼳I辨識力,需進(jìn)一步建立共享合作機(jī)制,促進(jìn)數(shù)據(jù)的開發(fā)與利用?!?/p>

目前,國內(nèi)已有針對甲骨文整理識別的AI項目:通過閱讀現(xiàn)存的海量甲骨文圖像,AI整理出幾千個甲骨文字符,并在不同甲骨文材料之間找到聯(lián)系,為解讀工作提供基礎(chǔ)。

實際上,越是鮮有人問津的生僻符號,越適合AI展露身手。我國少數(shù)民族先后創(chuàng)制和使用過30多種古文字,國務(wù)院公布的六批《國家珍貴古籍名錄》中,收錄了少數(shù)民族古籍1133部,國家圖書館收藏的民族古文獻(xiàn)就有18個文種,共34000多冊件。這些古籍的數(shù)字化和整理工作更缺專業(yè)人才,也更需要AI的加持。“這些材料的數(shù)字化與整理,今后有望大量依靠AI來完成?!蓖跤钫f。

加快人才培養(yǎng),讓古籍走出“高閣”

國家古籍保護(hù)中心調(diào)查結(jié)果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個版本,古籍?dāng)?shù)量達(dá)3200多萬冊。我國從20世紀(jì)80年代就開始嘗試古籍?dāng)?shù)字化,但受技術(shù)、資金、版權(quán)等因素限制,海量文獻(xiàn)中實現(xiàn)數(shù)字化的不超過八萬種,而且許多書只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不足四萬種。

吳國武告訴記者,目前全國范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬人左右。

海量古籍面前,現(xiàn)有的整理方式如同愚公移山。古籍整理專業(yè)人才匱乏,生產(chǎn)力低下,一直是阻礙“整理國故”進(jìn)程的世紀(jì)難題。

百年前胡適痛感,古籍缺乏系統(tǒng)性導(dǎo)致“一般青年,對于中國本來的文化和學(xué)術(shù),都缺乏研究的興趣”,這一問題至今未得到很好解決。古籍研究仍是冷僻的學(xué)問,許多古籍從未向大眾開放。

2022年,中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于推進(jìn)新時代古籍工作的意見》明確提出,推進(jìn)古籍?dāng)?shù)字化。全國古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組印發(fā)的《2021—2035年國家古籍工作規(guī)劃》則將“國家古籍?dāng)?shù)字化工程”列為四項重大工程之一,對相關(guān)工作進(jìn)行詳細(xì)規(guī)劃。

“使用AI完成古籍整理的前期基礎(chǔ)工作,效果很好?!眳菄浒袮I視為合作者,而不是簡單的工具。在他看來,AI的加盟讓全民得以了解甚至參與古籍整理這件事,可以說是廣植“整理國故”的沃土。

例如,“識典古籍”平臺已免費上線超16000部古籍資源,累計吸引上億人次了解和閱讀古籍,為1300余個外部團(tuán)隊的古籍整理工作提供幫助。這已成為文獻(xiàn)學(xué)界近年來最矚目的大事。

2024年底,著名的古籍整理工程《儒藏》與“識典古籍”平臺展開合作?!度宀亍肥切轮袊闪⒁詠碜畲笠?guī)模的儒學(xué)典籍整理工程,旨在收錄自先秦至清末的所有儒學(xué)文獻(xiàn),預(yù)計總體達(dá)到10億字。它沒有采取相對容易的影印方式,而是志在整理出便于現(xiàn)代人閱讀的文本,這給參與項目的學(xué)者帶來了難以想象的工作量。引入AI后,影印文獻(xiàn)的整理標(biāo)注將大大加速,相關(guān)整理成果也會公布在“識典古籍”平臺上,實現(xiàn)全民共享。

“AI可以幫學(xué)者快速定位到需要的材料,還支持同時比對10個以內(nèi)的校本,讓專家把寶貴時間都用來干技術(shù)含量高的活兒?!蓖跤罱榻B。同時,“我是‘校書官’”項目的進(jìn)階組志愿者,也有機(jī)會與《儒藏》工程的專家團(tuán)隊交流。這個以在校生為主的項目,或許能使他們中的一些人未來走上“整理國故”的專業(yè)道路。

AI的加盟也創(chuàng)新了古籍整理人才培養(yǎng)模式。吳國武介紹,目前高校里古典文獻(xiàn)專業(yè)大多開設(shè)了數(shù)字人文相關(guān)的交叉培養(yǎng)課程;有7所高校已經(jīng)申請了數(shù)字人文的本科專業(yè),古籍整理也是重要方向?!敖徊嫒诤蠈I(yè)培養(yǎng)出來的人才,未來有望填補(bǔ)古籍專業(yè)大模型的人才缺口?!?/p>

去年以來,國內(nèi)許多著名圖書館、博物館也積極引入AI技術(shù),保護(hù)和挖掘自己的館藏古典資源。國家圖書館藏現(xiàn)存最早版本的元大德三山郡庠刻本《通志》、首都圖書館藏《皇朝禮器圖》、浙江圖書館藏文瀾閣《四庫全書》……一系列珍貴典籍,將通過AI的修復(fù),重光臨世。

面對這一波熱潮,劉帥很興奮。他希望AI吸引更多的愛好者嘗試整理古籍?!肮妼偶年P(guān)注、熱愛和參與程度,決定了古籍整理的天花板有多高。我覺得自己站在一個時代改變的前夜?!彼f。

AI的速度,人類無法企及,劉帥也曾擔(dān)憂過自己會不會失業(yè)。但如今他認(rèn)為,AI的“識古”基礎(chǔ)是人工整理的高質(zhì)量數(shù)據(jù),無論技術(shù)如何發(fā)展,仍需要人去參透古書的秘密,使文化遺產(chǎn)薪火相傳。

“降低古籍的閱讀和整理門檻,始終是文獻(xiàn)學(xué)的核心目的?!眲浾f。

運營機(jī)構(gòu):鄂爾多斯國家級文化和科技融合示范基地管委會

Email:ordoswh123@163.com 服務(wù)電話:0477-8394929

Copyright ? 2015-2021www.gzdfgk.net All Rights Reserved. 創(chuàng)意草原 版權(quán)所有 蒙ICP備2021002117號-1