新闻与活动

鸿翼最新动态,最热活动

立即咨询
“AI+档案”应用功能开发的实践历程
发布时间:2023-05-26     点击数:10212

纵观AI发展史,始终存在着AI“狼”性说。在各类科幻作品中,AI或是如《黑客帝国》般统治人类,或是如《X战警》般成为新人类,最终的方向似乎都是吞噬和取代人类。而笔者认为其实有两匹“狼”的存在——既然AI是人类创造的,利用AI的人类本身不也是一匹“狼”吗?而且鹿死谁手还不一定呢!当然本文并非探讨AI与人类如何共存的伦理问题,而是结合笔者这些年在AI+档案应用开发方面的实战经验,提出一个更为现实的问题:“狼”真的来了吗?

鉴于“AI+档案开放审核”是近年来各级档案部门关注的热点问题,本文以“AI+档案开放审核”为例进行说明。


AI+档案开放审核的研究现状


虽然AI+档案的应用案例从2014年青岛市智慧档案馆项目启动之后就时有耳闻,但真正登堂入室应该是在2019年。2019年国家档案局发布的《国家档案局科技项目立项选题指南》(以下简称“《选题指南》”)中首次出现“人工智能”一词,引导档案部门在“人工智能在档案鉴定开放、检索、展览展示中的应用”、“大数据、云计算、人工智能等新技术在电子档案管理中的应用”等方面开展研究。随后几年,AI+档案应用研究一直出现在《选题指南》中。2022年和2023年度的《选题指南》更是将“AI+档案开放审核”列为重点课题项目。比如2023年度《选题指南》的重点项目7示意如下:


1685065975714.png


事实上,档案开放审核工作是各级国家综合档案馆的一项基础性业务工作,将AI应用于档案开放审核工作中,有利于提升档案部门的工作效率,减轻档案业务人员的工作量。自2019年以来,部分档案馆陆续开展了基于AI的档案开放审核研究和应用实践。青岛市档案馆开展“人工智能技术在档案开放划控中的应用”研究,江苏省档案馆开展“基于语义分析的档案馆划控开放智能鉴定的研究”,浙江省档案馆开展“基于NLP技术的档案智能辅助开放审核研究”,安徽省档案馆开展“人工智能技术在档案划控上的应用”研究,福建省档案馆开展“基于数字档案的人工智能档案开放审核系统实现研究”,通过课题研究+试点应用的方式初步实现AI辅助档案开放审核。然而,由于各单位已经研究建立的档案开放审核模型都是基于本馆的少数档案数据训练得出,能否适用于所有档案尚有待验证,实际上目前市场上还没有出现具有普适性、可以推广应用的档案智能开放审核系统或者工具。


其实,这也比较好理解,AI+档案应用的开发从来就不是一蹴而就的。如果AI是“狼”,那么对“狼”的驯化是需要过程的。对于AI+档案开放审核的实现,笔者认为需要经历以下几个阶段:


1685066240766.png


目前市场上大部分档案智能开放审核系统基本可以实现自动化阶段,正在向AI初级阶段发展,但要真正达到中级阶段(成长型AI),还需要被不断驯化。成熟的通用算法并不完全适用于档案行业,需要结合对档案业务的深度理解进行实验和优化。专业的AI公司不懂档案业务,传统档案公司没有AI算法,这一错位难倒了不少专业AI公司和传统档案公司。因此,需要将双方的优势有效融合,才能形成核心竞争力,这正是几年来笔者正在做的工作。在创造性AI尚未出现的现今,成长性AI已经是努力的上限。


二、AI+档案开放审核的实践历程

AI+档案开放审核作为近几年的研究热点,笔者和小伙伴们对其进行了深入的研究与探索,下面就将整个实践历程分享给大家。

我们的总体思路是这样的:首先使用通用OCR技术提取档案全文,然后使用NLP技术进行语义分析,优化训练一种基于规则和语义驱动的开放审核模型,最后通过机器学习算法实现自主成长。


问题一

但很不幸在第一步就遇到了问题。由于手写体OCR功能不过关,大批上世纪五六十年代的手写体档案扫描图像识别率低下,识别程序只能返回结果但无法判断是否识别准确,直接影响AI对全文内容审核的判断。于是我们寻求国内外专业OCR解决方案的帮助,提升手写体识别能力,效果依然不明显。后来在OCR识别过程中引入语义通顺度模型,实际上是根据档案行业特点引入文本纠错机制,才使手写体OCR识别的准确率得到明显提升。

下表所示为某批样本在OCR识别工具优化前后的识别率统计数据。

1685066031505.png

从上表中可以看出,虽然优化后识别准确率得到明显提升,但实际上离99%以上的识别准确率还是有较大的提升空间的,目前我们还在努力过程中。


问题二

紧接着就遇到了第二个问题:有的档案部门除了常见的敏感词库之外,还有专家历史经验的积累,已经形成了一定的规则知识;但有的单位并没有将开放审核经验归纳总结为可执行的规则,这将直接影响到冷启动阶段的准确度。所以,采用传统的基于规则的开放审核模型并不能满足要求,需要结合一种基于样本的开放审核模型(即基于历史鉴定成果的样本数据进行训练学习,并通过语义理解与分析生成鉴定结果),形成“规则+样本”双驱动模型,以此来提升AI辅助开放审核的准确度。当然,现阶段AI完全自动开放审核是做不到的,还需要档案业务专家进行复审把关,所以在实际应用中一般采用“AI初审+人工复审”的方式。

下表所示为双驱动模型准确率提升对比表。


09e00491a949ad3b95b951ebee91d856.png

由上表可知,双驱动模型的准确度相比于传统规则模型得到大幅度提升,但实际上提升之后的准确度依然没有达到理想要求(考虑到档案数据的敏感性,开放审核准确度要求100%)。这也印证了现阶段为什么要采用“AI初审+人工复审”的方式。


问题三

最后的问题在于:如何实现自主成长型AI,使其在日常训练和用户使用过程中持续学习、自我优化,逐步形成较为通用的计算框架,并且可以针对不同档案内容进行自适应学习的开放审核模型。结合当前GPT-4、文心一言这一类大语言模型(Large Language Model,LLM)的技术原理,我们增加了语境分析模型(Context Analysis Model, CAM),通过正负能量算法来分析档案文本中的语境倾向。在AI技术大牛的指导下,小伙伴们愈战愈勇,自主研发了一种具有深层知识感知能力的迭代学习算法,结合双驱动模型对样本数据、初审结果、复审结果、专家知识信息进行自动分析,在形成通用语言模型的基础上学习本地档案内容数据,最终初步实现可成长的AI开放审核模型。

d34f13cae7faeb504b0c7bb79590fa66.png


为了验证可成长AI开放审核模型在档案特有环境中的有效性,我们已在三家档案馆独立部署,用真实档案数据进行测试。通过AI初审和人工复审的比较分析,在算法工程师们的不断优化下,虽然开放审核的准确度依然没有达到理想值,但AI开放审核模型确实是在不断“成长”!后续,我们将进一步扩展档案部门数量、扩充档案数据类型,扩大样本数据规模,验证该模型对于不同档案业务场景的普适性。


道路是曲折的,前途是光明的。将AI技术融入档案业务场景,结合档案数据的特点不断进行优化、完善,AI必将推动档案管理模式的变革。到时候,不仅“狼”会来,狮子老虎大象也会来。AI+档案之路,未来可期!


AI+档案应用场景图

2f1d123f41cd5a8d52c5f6695489cc85.jpg

立即领取免费试用名额,开启内容管理新体验

立即咨询申请试用
在线咨询 400电话 微信咨询 售后服务
400-886-1516

微信二维码

021-64182907