中华书局古联数字公司“古籍数字化”讲座

发布日期: 2021-06-15   作者:  浏览次数: 551

2021年6月3日下午,中华书局古联数字传媒科技有限公司总经理助理、 “古籍数字化与知识工程重点实验室”骨干成员朱翠萍博士在思勉人文图书馆举办题为《“AI技术”之外,我们更应该关注哪些古籍数字化问题?》的讲座。此次活动由华东师范大学图书馆主办,思勉人文图书馆和中华书局古联数字公司协办。来自中文系、历史系、传播学院等院系的硕士、博士参与了此次讲座,同时讲座通过伯鸿读书会小程序进行线上直播,峰值观看人数达到528人。


本次讲座主要围绕古籍数字化背景情况、古联数字化产品、古联数字化技术服务和古籍数字化人才培养四部分展开。

朱翠萍老师首先结合国家出版基金、社科基金的相关工作,国家古籍小组的动态、数字化工作座谈会的相关情况介绍了国家层面对古籍整理工作的关注。通过介绍一批有着广泛影响的古籍数字化项目和各高校数字人文工作的兴起描绘了目前数字化工作发展的现状。

在第二部分,朱老师通过“小凡例,大整理”观念的提出,从版本源流、字形规范、体例格式等方面指出《中华经典古籍库》的价值,为古籍整理提供了标准和章法,起到了很好的示范作用。同时,总结了专题数据库建设目前取得的工作进展,介绍了中华石刻数据库、历代登科数据库、小学文献数据库、甲骨文数据库等特色数据库的产品及相关服务。其中特别介绍了校图和思勉图书馆联合购买,面向全校师生开放的中华经典古籍库的一些使用特色。如进行个人登录后,可以自动生成符合学术标准的引用格式,并且可在页面直接关联联机词典进行字词查询。又如进行高级检索中的同义词关联可以检索同一人的名、字、号、郡望、官职、谥号、追封等的完备信息。在介绍历代登科数据库的时候朱老师提到,此数据库不仅能向读者提供内容体例严谨完整的资料查询,同时还能支持各类统计功能,生成统计图表以方便读者进行更深层次的研究。在介绍汉译文学编年考录数据库的时候,朱老师通过一些有趣的竞猜活动向我们展示了一些重要作家、作品因为译名的差异而可能导致的资料搜集的缺失,从而展示了这一数据库在保证研究资料完整性上的独特价值。最后朱老师指出,现在专题数据库产品建设亟需一批专家学者进行有价值、有特色的专题研究,在数据的基础上古联公司将为其提供技术平台,最终形成有价值的专题数据库。

在古联数字化技术服务板块,朱老师向我们详细介绍了面向用户的数据平台背后的运作流程和产生过程,以及其中所用到的先进的数字化技术。其中特别介绍了藉合网基于深度学习的古籍OCR实践。先进高效的中文古籍文本识别工具可以有效完成刻本古籍图像向高质量文本的转化。通过对字、行定位,字识别,字行识别,基于文本序列的行识别的技术难点的攻克,现有的OCR技术已能基本解决古籍本文识别中古籍用汉字字符集规模大,中文古籍版式复杂、图像质量欠佳,古汉语语义分析困难等技术难题,可实现古籍文本识别率达到90%以上。

讲座的最后结合《国务院办公厅关于深化产教融合的若干意见》、“新四科建设”等国家政策,基于产学合作协同育人项目的理念,朱老师谈了古联公司古籍数字化人才培养方面的建设。一方面在实际操作中古联公司已经引入古籍整理众包制度,并形成了一定数量的不同学历层次、不同专业方向的分包对象。另一方面古联公司也致力于建立专门进行古籍整理培训业务的籍合学院。并将在今年7月陆续上线,该平台包含理论通识课、案例课、实务技能课、专题知识课的四个大类三十多门课程。

  会后来自线上、线下的师生进行了热烈的讨论,纷纷发表感言并提问。思勉人文图书馆的金玉博老师认为讲座高屋建瓴地向我们展示了当代古籍数字化工作的深层体系,分享了古联公司工作中的宝贵数据和经验,用丰富翔实的案例带领广大读者深入浅出地了解了古籍数字化工作的台前幕后;表示受益良多。朱翠萍老师也就读者提出的“众包如何保证专业性”、“OCR系统和字形查询系统的差别”、“繁简转换一对多的处理如何精准”等问题进行了积极地回应。