数字时代的文献学革命-从古籍数字化到古籍知识化
凡一种学问能扩张他所研究的材料便进步,不能的便退步。—傅斯年
只要做学问,就一定要用文献。—清华大学人文学院院长刘石教授
一、一场坦诚的开场:当"技术恐"遇上数字人文
"对于现代技术,我们学文科的人,和那些技术控恰恰相反,我们是技术恐。"
2026年6月24日下午,中国国家图书馆启德厅内座无虚席。清华大学人文学院院长刘石教授以这句坦率的自白,拉开了"数字人文系列讲座之十一"的序幕。这场题为《数字时代的文献学转型与数字人文》的讲座,由国家典籍博物馆主办,吸引了来自全国高校、科研院所及文化机构的数百名听众。
刘石教授的谦虚,完全颠覆了人们对"清华教授"的刻板印象。有听众在台下轻声议论:刘先生的博士生导师,正是北京师范大学的启功先生。启功先生是当代中国传统文化文人的典范,其门下弟子自然承袭了那份儒雅与谦逊。这种师承关系,或许也解释了为何一位在传统文献学领域深耕数十年的学者,会以如此开放的心态拥抱数字技术。
刘石教授开诚布公地讲述了自己如何从一个"技术恐"走进人文研究数字化领域的心路历程。他回忆道,大概是从2018年开始,学校要求教师积极申请科研项目。"在高校从事教学工作,没有项目便很难待下去。"他坦言,"我的专业是古代文学,文科可以申请什么项目呢?我找了一帮人来出主意,集思广益的结果是讨论出一个题目:基于大数据技术的古代文学经典文本分析研究——就是研究如何用数字化的方法推动和促进传统的古代文史研究。我就这样走入这个领域。"
这番话的坦诚令人动容。在学术评价体系日益量化的今天,一位传统人文学者的"被动转型",恰恰折射出整个学科面临的深刻变革。刘石教授很欣喜地看到,日新月异的科技给现代人类生活带来全方位的变化,计算机科学的发展使得大数据时代不期而至,数字人文的浪潮更是越来越汹涌。大数据研究为人文社科研究的变革与创新带来了千载难逢的历史机遇。
一堂数字化人文讲座,对于许多在场听众而言,无异于解锁了一门全新的知识体系。正如一位听众在会后感慨:"真是听君一席话,胜读十年书。"
二、古籍的数字化:从"摸清家底"到国家战略
中国大陆文献数字化的历史,就是从古籍开始的。
孔子整理六经,开启了中国古籍整理的传统。两千多年来,古籍整理不仅是历代学人孜孜矻矻的名山事业,也是中华优秀传统文化传承的前提与基础。从汉代的刘向、刘歆父子校书,到清代的《四库全书》编纂,每一次大规模的古籍整理,都深刻影响了学术发展的走向。
然而,与古籍产生的悠久历史相比,古籍数字化的历程却显得尤为短暂。国内古籍数字化工作可追溯到1980年代,当时主要依赖简单的字符编码和文本录入。进入21世纪后,随着扫描技术、OCR识别和数据库技术的发展,古籍数字化进入了快速发展期。
但一个严峻的现实摆在面前:中国古籍的存世量约20万种左右,而到今天,相对于20万种存量来说,得到数字化的古籍据估计只有百分之十左右。这意味着,我们还有超过18万种古籍尚未完成数字化,大量的珍贵文献仍以纸质形态沉睡在图书馆、博物馆和私人藏家的书架上。
2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》(简称《意见》),其中第12条明确提出"推进古籍数字化"、"统筹实施国家古籍数字化工程",可谓正当其时。《意见》指出:
建立健全国家古籍数字化工作指导协调机制,统筹实施国家古籍数字化工程。积极对接国家文化大数据体系,加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享。支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享。统筹古籍数字化版本资源建设与服务,推进古籍专业数据库开发与利用。积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级。
这一顶层设计,标志着古籍数字化从分散的学术行为上升为国家文化战略。
值得一提的是,学界前辈对技术辅助人文研究早有预见。钱钟书先生对利用计算机进行学术研究就非常敏感,支持用计算机整理《论语》《全唐诗》等典籍。学者田奕撰写《电脑里的唐诗》一文时,钱钟书亲自审稿,并留下了一句意味深长的话:"能够帮助人的计算机也需要人的帮助。"这句话在今天看来,依然是对数字人文研究最精辟的注解——技术永远是工具,人文精神才是灵魂。
三、古籍的知识化:从"大数据"到"大知识"
如果说数字化是古籍保护的第一步,那么知识化则是让古籍"活起来"的关键一跃。
《意见》中提出的"积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践",正是这一转型的纲领性表述。刘石教授指出,随着计算机深度学习能力、文本挖掘等大数据技术和人工智能的快速发展,古籍在继续数字化的同时,应该开始向知识化转变。
那么,数字化和知识化的本质区别是什么?
刘石教授援引清华大学自然语言处理科学家孙茂松教授的观点,给出了清晰的界定:前者仅可提供简单的字符串检索,属于"大数据"的范畴;后者则是基于所有存世古籍的关系性、结构化、知识再生型的超大数据库,属于"大知识"的范畴。
如果说两者都可用"数据库"来指称,那么前者是非关系型数据库,后者是关系型数据库。打个比方:数字化相当于把古籍从纸质变成了电子文本,你可以搜索到"李白"这个词出现在哪些书里;而知识化则是构建一个庞大的知识网络,你不仅能找到"李白"在哪里,还能知道他的生平、交游、创作风格、时代背景,以及他与杜甫、王维等人的关系图谱。
由此,"中国古典知识工程"(Chinese Classics Knowledge Base,简称CCKB)被正式提上了议程。
四、中国古典知识工程:一个关乎文明整体的宏大构想
近年来,清华大学数字人文团队就建设"中国古典知识工程"进行了持续呼吁。刘石教授在讲座中详细阐述了这一工程的构想:
使用大数据、人工智能、自然语言处理等相应技术手段,开发适合不同古籍类型的文本分析模型和工具,借助中国历史上一切古典学的研究成果,突破文献原有结构,周密地设定主题词表,专业地提取各种实体,多维度地构建实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理,形成基于全部存世古籍的中国古典知识库。
这一构想之宏大,堪称数字时代的"四库全书"工程。
海外在这方面其实早有措手。哈佛大学"中国历代人物传记资料库"(China Biographical Database,CBDB)以50万名中国古籍中的历史人物为中心,提取人物及人物之间的社会关系,影响甚巨。国内复旦与哈佛合作的"中国历史地理信息平台"(CHGIS),一些规模不大但颇具特色的专题数据平台如王兆鹏"唐宋文学编年地图"、徐永明"学术地图发布平台"等也引发了社会的普遍关注。
但刘石教授强调,"中国古典知识工程"是一个基于全部存世古籍、关乎中国古典知识整体的宏大构想,其难度和规模远超现有任何单一项目。它需要专业力量和技术力量、众高校科研机构和企业的通力合作,需要国家将之真正上升到文化发展战略的高度,相关职能部门高度重视,给予规划和指导。
五、文献与知识管理的千年变革
刘石教授在讲座中提出一个振聋发聩的论断:大数据是继秦汉以来最大一次文献与知识的管理变革。
这一变革主要体现在三个层面:
1. 文献生产的创革
传统文献学,是围绕典籍进行的"治书之学"。传统的文献生产一般包括写录、传抄、刊刻等文本制作,编目、校勘、辑佚等文本整理,注疏、考辨、翻译等文本研究。这些工作高度依赖学者的个人学识和经验积累,一代代学人前赴后继,皓首穷经。
数字文献学则依赖文本分词、词性标注、命名实体识别、特征提取、情感识别、可视化呈现等工具与技术,对文本库的数据来源、数据量、数据格式、参数指标、算法工具等进行系统说明。其对文献的处理方式和功能建构与传统文献学迥异,极大改变和创新了传统文献的生产方式,实现了文献形态的再发现与再生产。
例如,传统的辑佚工作需要学者遍览群书,从各类典籍中钩沉散佚的片段。而在数字时代,通过全文检索和文本比对技术,可以在数小时内完成过去需要数年才能完成的工作。这不是对传统的否定,而是对传统的赋能。
2. 文本形态的新变
数字文献的计量单位发生了根本性转变:从传统的句、行、段、页、篇、卷、册、部等,向以基本储存单元(位、字节、字)、扩展存储单元(KB、MB、GB、TB)等转变;从传统的别集、总集、类书、丛书、资料汇编等向资料集、数据库、智能平台等转变。
传统文献在空间化和可视化方面不占优势。一本线装书,读者只能逐页翻阅,难以直观把握全书的结构脉络。而大数据技术将文献以可视化方式呈现,GIS技术显著地促进了传统文献的图表化、可视化。数字文献形态还包括音频、视频等多模态,使得古籍不再是静止的文字,而是可听、可看、可交互的立体知识体。
3. 知识获取的拓展
传统文献以线性平面纸质文本为主,通过篇章划分、页码标记等方式规定了阅读顺序。读者的知识获取路径是固定的、单向的。
在数字时代,知识获取已非直接来自单个文本,而是来自文本集、数据库。每个数据库都是一种"宏文本",不同的数据库基于知识、逻辑、功能等被联结成为超大文本。读者可以通过超链接、知识图谱、语义检索等方式,在不同文本之间自由跳转,发现传统阅读方式难以察觉的关联。
知识获取的拓展必定提升学术创新的能力。文本校笺、年谱编纂、资料汇辑、史实考据等需要耗费学者大量心血的传统学术工作,因变得轻而易举而逐渐退出学术主流。可以预期的是,前所难能的新角度、新视野以及新方法必将涌现。
六、文献学的现代转型:从"抽样"到"全样本"
大数据时代必然能为传统文献学带来深刻转型,刘石教授将其归纳为三个主要方面:
1. 提升对海量文献整体性与复杂性的认识
大数据时代的庞大数据集合让寻求万物整体性和复杂性成为可能。随着样本量的增加和标准变化,以往建立在抽样基础上的结论可能发生改变。
刘石教授举了一个生动的例子:前辈学者基于唐诗的大家名篇得出的一些声韵规则,一旦扩大到全样本(即《全唐诗》的全部作品),则显示出其局限性。某些被认为"不符合格律"的诗句,在全样本统计中其实出现频率并不低;而一些被奉为圭臬的规则,在全样本视角下反而暴露出更多的例外。这种"全数据模式"下的重新审视,往往能颠覆既有的学术定论。
2. 促进文献研究的实证化与科学化
相较基于信念、经验、学理、例举式的特征描述和定性分析的传统研究,大数据技术能够针对全文本进行高效分析,提高结论的精准性及可验证性。
计算机领域有成熟的技术用来抽取和表征文体、风格特征,通过词汇、句式、声律、节奏、用典、结构等多重要素复合定量分析,文本的客观特征就得到明确呈现,科学性显著增强。例如,通过词频统计和情感分析,可以客观衡量一位诗人不同时期作品的风格变化;通过社会网络分析,可以量化一个文学流派内部的影响力结构。这些在传统研究中只能凭感觉判断的问题,在数字人文框架下获得了可重复、可验证的解决方案。
3. 促进文献学学科思维和范式的发展变化
大数据技术形成的"全数据模式",使研究者能够摆脱就局部论局部和以局部论全体的局限,复杂的现象和问题可以得到更全面更整体同时又是更精确更彻底的解决。
大数据带来的严格意义上的整体论,可以催生出全新的研究范式:
- 从片面性到整体性:不再依赖有限的样本和个案,而是基于全部数据进行判断
- 从因果性到相关性:不仅追问"为什么",更善于发现"是什么"和"怎么样"
- 从解释性到求是性:从主观阐释走向客观呈现,从"我认为"走向"数据显示"
这种范式的转变,并不意味着否定传统人文研究的价值,而是为其提供了新的工具和视角。正如刘石教授所言:"数字人文不是要取代传统学者,而是要让学者看得更远、想得更深。"
七、中国的数字人文:从星星之火到燎原之势
数字人文并非中国独创,但在中国的发展却呈现出独特的速度和规模。
1960年代前后,诞生不久的计算机被西方国家运用于人文研究,称为"人文计算"(Humanities Computing)。1990年代前后,中国的一些学者开始致力于运用计算机技术研究人文课题。21世纪初,"数字人文"(Digital Humanities)第一次出现在大陆学界,近20年来,发展呈加速之势。
刘石教授特别指出,2023年4月,教育部将"数字人文"列入最新版《普通高等学校本科专业目录(2024年)》,这一标志性事件极大地推动了学科建制化进程。此后,多所高校纷纷成立数字人文研究院、数字人文系或数字人文专业,数字人文中心、学会、联盟之类的机构也不断涌现。
刘石教授在讲座中梳理了中国数字人文机构建设的重要节点:
- 中国社会科学院文学研究所:2004年成立数字信息室,近年加大了投入力度
- 武汉大学:2011年在信息管理学院成立国内首个数字人文研究中心
- 南京大学:历史学院2017年成立"数字史学研究中心";2021年人文社会科学高级研究院成立数字人文创研中心
- 复旦大学:2018年建立人文数据平台
- 中国人民大学:2019年创办国内首个数字人文本科学位,成立数字人文研究中心;2020年开办国内首个数字人文硕士学位点;2021年创办《数字人文研究》;2022年获批国内首个数字人文博士点,同年升级为数字人文研究院;2023年在信息资源管理学院成立数字人文系
- 北京大学:2020年在人工智能研究院成立数字人文研究中心
"中国的数字人文正在形成自己的研究队伍、学科建制、专业社团和体系特色。"刘石教授强调说。
根据《教育部关于公布2025年度普通高等学校本科专业备案和审批结果的通知》,数字人文本科专业(专业代码:050110T)获批增设。各高校正陆续发布官方消息,据不完全统计,目前已有10所高校公开宣布新增该专业,相关院校名单仍在持续更新中。
八、清华大学的数字人文实践:从平台建设到人才培养
刘石教授以清华大学为例,详细介绍了学校在数字人文领域的系统性布局:
平台建设方面,清华大学已建设全球唯一中文"数字人文门户网站"。(www.dhcn.cn,2021年上线,学术资讯聚合)、"中国古典文献资源导航系统"(奎章阁,2019年,全球500多个古籍数据库聚合,近年来最全最大的古籍资源导航系统,被誉为"数字文献学"核心基础设施)、"典津:全球汉籍影像开放集成系统" )
学术交流方面,自2017年起举办六届"清华数字人文国际论坛及未来学者场",已成为国内外数字人文领域的重要学术品牌。
人才培养方面,清华大学开设了第一门本科及研究生数字人文课程。多位学生在《中华文史论丛》《文学遗产》等顶级期刊和国际顶会发表论文。国内第一批数字人文方向博士生、博士后毕业和出站,进入中国社会科学院、南开大学等重要高校和学术单位。
在讲座现场,刘石教授展示了一张照片:一间现代化的智慧教室里,一位年轻教师正在向本科生讲授数字人文课程,大屏幕上显示着复杂的知识图谱和数据分析界面。"让本科生进入学术前沿,"刘石教授幽默地说,"我做的事情就是拍摄了这张照片,让年轻人跟上数字化时代的列车。"
国际合作方面,2024年11月,由中国社会科学院、中国教育部、中国文化和旅游部、希腊文化部、希腊雅典科学院共同主办的首届世界古典学大会在北京举行。清华大学数字人文团队应邀承办了八个分论坛中的第七个——"古典智慧与数智时代",亦即以数字人文为主旨的分论坛。这标志着中国数字人文研究已获得国际学术界的高度认可。
产学研合作方面,2025年3月,"清华大学—同方知网数字人文联合研究中心"成立,进一步打通了学术研究与产业应用的通道。
九、数字人文中的古典文学研究:从方法论到案例
讲座的最后部分,刘石教授介绍了现阶段数字人文研究的主要技术方法及其在古典文学研究中的具体应用。
主要技术方法
现阶段数字人文研究的主要技术方法包括:机器学习与人工智能、数据库方法、计算语言学、网络分析、天文地理信息系统、数据挖掘、主题模型等。
这些方法可用于古典诗歌分析系统的研制、作家生平事迹研究、古典小说研究、文本与人物研究、文体与文论研究。
三个关键环节
刘石教授强调,数据库建设、技术创新运用与文本研究是三个关键:
- 数据库是基础:没有高质量的数字化文本和结构化数据,一切分析都无从谈起
- 文本分析技术是关键:如何将传统学者的问题意识转化为可计算、可验证的技术方案,是数字人文研究的核心挑战
- 最终要落实到文本:所有技术工具的最终目的,是发掘依靠阅读经验难以发现的文本组织特征及相互关系,利用特定的软件或工具,通过定量统计、定性分析,来解决古典文学研究领域长期存在的疑而难决的作品归属、作品辨伪、异文辨析、修辞特色、风格生成、题材变迁、因革影响等方面的问题
案例一:《红楼梦》的诗词从哪里来?
李飞跃、宋佳霏《基于文本相似度分析的〈红楼梦〉化用唐诗研究》是数字人文方法应用于古典小说研究的典范之作。该研究运用"编辑距离""词袋模型"与"主题模型"等数字人文方法,筛选出《红楼梦》化用的唐宋诗句及其文本来源,分析它们在词句、篇章层面的关系,探究曹雪芹的阅读经验与《红楼梦》诗意风格的生成之关系。
研究发现:
- "价高村酿熟"一句出现于咏雪联句中,看似和雪无关,但郑谷的"雪满长安酒价高"一句则补充解释了雪和酒价之间的关联。
- 第五回以"霁月难逢,彩云易散"形容晴雯,而白居易曾在《简简吟》中以"彩云易散琉璃碎"形容十三岁天亡的女孩简简,暗示了晴雯同样英年早逝的命运。
通过分析这些诗句在康乾时期的所属诗歌选本及其版本流传状况,研究者认为《才调集》等选本对《红楼梦》的诗歌创作或具有直接影响。这种基于大规模文本比对得出的结论,远非传统"逐条比对"方法所能企及。
案例二:近体诗律的实证检验
王力《诗词格律》长期被视为今人掌握古人诗词格律的金科玉律。李飞跃、韩娅非《近体诗律标准模型校考》、郝若辰、陆泉宇《从永明到景龙:初盛唐近体诗声律规则的还原与重构》等研究,基于对《全唐诗》的《广韵》标音,通过统计和分析全部五七言四八句体诗,对标准句型、二四异声、粘对、三字尾、换头、护腰、相承、挟声、拗救等声律特征进行校验,证实或证伪了一些流传已久的命题,并发现一些曾认为非律的句联篇模式出现几率较高。
全样本统计与整体分析有助于破除声律研究的观念窠臼,发现新特征与新规律,重新认识诗律的要素特征及其实践功能,促进古典诗歌体式及相关史论命题的实证研究。
案例三:天文与文学的跨学科对话
唐宸将数字人文分析维度由地理延伸到天文,其《古典文学天文研究的数字化探索及发展方向》提出"文学天文研究"的新领域,论及它在补全空间现场缺环、辅助年谱编年系日、丰富文本批评视角等方面的意义。
其《理念与方法:天象模拟技术与古典文学经典作品研究》一文,利用Stellarium天文软件分析经典文学作品中天文意象的虚实特征,提出一系列新结论:
- 通过计算李白《南奔书怀》所写"太白夜食昴",发现该天象发生在永王李璘败死当日,从而为诗人究竟何时脱离永王叛军这一公案提供了新材料。
- 通过计算黄景仁代表作《癸巳除夕偶成》所写"一星如月看多时",判断"一星"确属金星,从而证明了清人吴山锡"其明年有(白莲教)寿张之乱,金星先期骤明,作作有芒角,作者盖深忧之"一说的可靠性,为该诗主旨公案提供了新视角。
这种将文学文本与天文学、历史学相结合的跨学科研究,只有在数字人文的技术框架下才成为可能。
案例四:《文选》与唐诗的互文空间
程宁《数字人文视域下〈文选〉与唐诗的互文空间》是另一个精彩案例。古人云:"唐人佳句,多本六朝。"其中尤以《文选》对唐诗创作的影响最为广泛。语言痕迹是考察这种影响的最直接线索,但因缺乏大规模相似诗例和史料支撑,前人在讨论唐人诗句与《文选》的关系时往往局限于某几位诗人作品的零散举证。
该研究使用基于语义特征的相似度算法分析唐诗和《文选》之间的互文关系,构建互文知识库,探讨以李杜为代表的唐代诗人在诗歌创作过程中引用前人诗句的具体表现。这种基于算法的系统性分析,不仅验证了传统学者的直觉判断,更发现了大量前人未曾注意到的互文现象。
十、结语:在传承与创新之间
刘石教授的讲座,为我们勾勒了一幅数字时代文献学转型的全景图。从古籍数字化到古籍知识化,从"大数据"到"大知识",从传统文献学到数字文献学,这场变革正在深刻重塑人文学科的研究范式和方法论基础。
然而,在拥抱技术的同时,刘石教授始终保持着一位传统人文学者的清醒。他反复强调:技术只是工具,人文才是目的。计算机可以帮助我们发现规律、验证假设,但提出有价值的问题、做出有深度的阐释,依然需要学者的学识、洞察力和人文关怀。
钱钟书先生那句"能够帮助人的计算机也需要人的帮助",在今天依然振聋发聩。数字人文的最高境界,不是让机器代替人思考,而是让人借助机器看得更远、想得更深。
站在2026年的今天回望,中国古籍数字化事业已经从"摸清家底"的初级阶段,迈向"知识再生"的深水区。20万种存世古籍中,还有90%等待数字化,还有海量的知识等待被激活。这是一项关乎文明传承的宏大工程,需要学术界、技术界、产业界乃至全社会的共同努力。
正如傅斯年先生所言:"凡一种学问能扩张他所研究的材料便进步,不能的便退步。"数字人文正是为传统文献学"扩张材料"提供了前所未有的可能。在这个意义上,刘石教授和他的同行者们所做的,不仅是一项学术研究,更是一场文明传承的接力。
来源:刘石老师 傅斯年先生
- 上一篇:古籍数字化后,从深闺走向公众的智慧传承之路
- 下一篇:没有了


