广州米图信息科技有限公司 > 新闻资讯 > 行业动态 >

浅谈古籍文献知识资源细颗粒度标引中的古籍稿本标引识别问题

发布:2023-04-21 10:15 点击:0

     图书馆知识资源细颗粒度标引建设中的地方古籍稿本进行细颗粒度标引存在一定的技术要求。

     首先在图书馆知识资源中,包含了大量的县志、古籍抄本、印刷善本等等,由于古代、近代的印刷技术的限制,大部分古籍存在印刷不清晰、噪点较多的情况。这些会导致古籍OCR识别率低,影响古籍稿本标引效果。所以在严格遵循《国家图书馆管理元数据规范》,采用非接触式高清古籍书刊扫描仪对提高图像精度,降低图像噪点,并采用系统内嵌的古籍善本识别技术,可以大大提高古籍文献的OCR识别率。

     1、简单竖行繁体稿本识别

     以《文心雕龙》稿本为例:

《文心雕龙》稿本
     2、模糊手写竖行繁体善本识别
     以《金刚经》善本为例:

《金刚经》善本
    模糊手写竖行繁体善本识别


     3、复杂排版善本识别
     以《三国志》善本为例(可以看到红色绿色区域多列混排):

《三国志》善本

     识别结果&智能格式整理

     4、模糊近代报纸识别
     各省级文化和旅游行政部门会同省级图书馆、市县级图书馆,存在大量的民国、近代繁体报纸,非接触式高清古籍书刊扫描仪也针对报纸的高清图像数字化扫描和识别做了专门优化,
     对于大型版面的复杂报纸识别率达到约60%的水平,填补了国内复杂非固定版面OCR识别的空白

     字资源发布平台系统以人工智能为基础,全面面向未来知识图谱布局,支持对对基础数字资源的细颗粒度内容标识、关键知识点的标签和标引建设,通过高精度古籍识别技术,进行百万级细颗粒度标引。
     《智能细颗粒度标引解决方案》以文化行业本体模型为核心元素,以知识抽取模型为实现手段,构建了由资源打标层、数据存储层、数据控制层、查询处理层、应用接口层和展示层组成的文化行业知识图谱集成平台。该平台集成了本体管理、知识抽取、知识库管理和知识图谱展示等核心功能,设计了良好的外部接口,实现了传统文化数字化、文化服务形式信息化和文化资源共享,为图书馆数字文化战略提供了中台数据支持。

     我们凭借几十年来在文化遗产保护领域的领先技术,艾图视全系列产品,从CopiBook系列非接触式书刊扫描仪、非接触式专业古籍书刊扫描仪,到Suprascan Quartz系列非接触式大幅面扫描仪,DL mini系列全自动翻页书刊扫描仪,针对不同的古籍文献档案字画艺术品,提供了出色的扫描效率、高清的扫描质量、真实的色彩还原、人性化以及易用的操作方式,辅以出色的数字化采集软件LIMB Capture、数字化后处理系统LIMB Processing、数字资源发布平台系统LIMB Gallery,可以为图书馆、高校图书馆、博物馆、档案馆提供古籍、文献从数字化到发布呈现再利用,提供全流程解决方案。


来源:网络 图片