返回列表
随着人工智能(Artificial Intelligence,AI)技术的不断发展及ChatGPT式大语言模型的横空出世,AI与各个行业的结合正在推动产业变革和创新应用。如何通过AI推进档案管理的智能化应用,实现档案资源的深度挖掘与广度服务,是档案管理者和参与者需要深入思考的重要问题之一。
建立一套符合档案管理行业特点的“AI+档案”层次框架,对档案行业的智慧化发展具有重要的指导意义。该框架应在组织层面明确AI在档案管理中的定位与作用,在技术层面确定AI应用于档案管理的场景与方式。并在此基础上,各档案部门可以结合自身情况,选择适当的AI技术与应用场景,加速推进AI在档案管理中的落地与创新。
现对AI+档案层次框架进行初探,下图为根据最新档案管理行业发展动态和技术趋势进行的框架总结。
第一阶段:AI+档案数字化
档案行业因其管理对象特性、资金预算、技术阶段等原因,现阶段纸质档案的待数字化率和未数字化率依然较高,部分档案还出现文字残缺、印制质量不高、手写体和繁体字混杂、档案数字化副本质量差等情况,如何将此部分档案完整、准确、高识别率地完成数字化加工成为整个数字化过程的技术关键,也是行业内持续突破和调优的聚焦点。
使用自然语言处理(Natural Language Processing,NLP)中的语义分析技术以及智能图像识别和增强技术并与OCR识别技术相结合是提升档案数字化识别准确率的有效途径之一,从而使档案数字化加工智能化成为可能。
通过智能图像识别和增强技术,可实现对扫描档案图像智能纠偏和抠图,自动去除与原始图像不一致的无关内容,使数字化副本与档案原件完整对齐,准确还原档案原貌,避免无关内容引起的识别与理解错误,还可对分辨率不佳、局部模糊的图像进行增强处理,以提高后续文本识别效果。
通过对文本质量不高的档案内容前后文语义分析并依据后台已经过大规模数据训练的模型判断可大大提升文本识别准确率,特别是对于有历史阶段特点的档案、生成与保存质量不高的档案,其识别准确率有显著提升。
第二阶段:AI+档案数据化
高识别率、高准确率的档案数字化图像是构建高质量档案数据化成果的基础,而高质量的档案数据化成果又是“AI+档案应用”的基石。
综合运用档案大语言模型、语音识别、图像识别、人脸识别、NLP等AI技术,对文档和多媒体档案数据进行挖掘和提取,实现档案数据化。
AI+文本类数据化
高质量的数字化加工成果输入档案数据化处理平台后,通过NLP技术从大量的非结构化文本数据中自动抽取出结构化的知识和信息,知识抽取主要包括实体识别、关系抽取、事件抽取、情感分析、知识消歧等。
AI+声像类数据化
对于照片、视频、音频等多媒体文件进入档案数据库后,传统检索功能只能通过标题、元数据及其他人工著录的信息检索,却无法检索多媒体档案内容信息。随着AI技术的发展,多媒体档案内容数据检索与利用已成为可能。
1. 图片类数据化
图片类数据化流程包括对图片内容分类、图片标注、知识抽取、图片索引等,以形成计算机可读和处理的数据。
2. 视频类数据化
视频类数据化与图片类数据化的实现步骤基本一致,但首先需要将视频逐帧分解为图片后再进行数据化操作。
3. 音频类数据化
音频数据化主要是将音频转换为文字,通过文字的全文检索进而实现音频内容的检索功能。
第三阶段:AI+智慧档案应用
实体档案经过数字化和数据化后,可构建计算机可读、可处理的结构化档案数据资源库,“AI+智慧档案应用”便有了实现基础。
“AI+档案应用”的具体应用场景如下:
领域知识图谱系统
档案行业拥有数量庞大、结构清晰、真实可靠、具体独特、质量优质的海量数据,通过知识图谱技术可构建特定领域的知识图谱。如上图所示的干部人事任免知识图谱,挖掘人事档案中的机构、人名、职务、成员、地名、事件等关键数据信息,提供干部任免职关联查询、时间线实体查询、线索查询等功能。
多模态档案全文检索系统
在视频、音频、图片、文本类档案数据化基础上,一键打通不同类型数据进行多模态全文搜索功能,实现档案全域数据内容级细颗粒度检索。具体表现为单模输入多模输出(比如同时输入2个人的头像图片去搜索定位2人在视频中同时出现的片段),当然也可通过语音输入、以图搜图、用文字方式搜索对应的文本、音频、视频、图片等。
智能档案开放审核系统
基于NLP对档案数据化成果开展实体抽取、关系抽取、事件抽取,信息抽取后生成实体数据、关系数据、事件数据,在系统中设置规则,抽取后的数据与规则匹配后即可实现智能开放审核。档案开放审核系统的智能化程度依赖于信息抽取的质量,信息抽取的完整性、准确性决定着开放审核的实际效果。
第四阶段:AI+档案智能大脑
随着ChatGPT等大语言模型技术突飞猛进地发展,如何将该技术应用于档案行业成为内业讨论的焦点问题。
档案行业自身掌握大量真实可靠、优质完整、独一无二的数据,可为大语言模型提供丰富语料,尤其在现今的中文语料环境中,高质量的档案数据尤显珍贵。基于海量档案领域语料预训练后的模型,可实现对档案内容的事件抽取、文本摘要抽取,建立后台事件数据库和摘要数据库,为档案编研、大事记编写、文件生成、语义检索等提供数据、应用支撑。目前可落地的应用如下:
智能档案编研系统
编研人员可在智能档案编研系统中通过语音或文字描述的方式输入档案编研需求,系统自动生成编研者想要撰写的档案编研成果。
智能大事记编写系统
基于预训练后的模型以及建立的摘要库、事件库,系统使用者通过语音或文字描述的方式输入大事记编写需求,系统自动生成大事记编写成果。
智能文件编写系统
智能文件编写系统离线部署后,用户在系统中可通过文字或语音的方式输入需求,如用户提出“请拟定一份节假日加强安全管理的通知”需求,系统通过语义分析用户需求,按解析后的意图在基于大语言模型的知识库中检索相关的模板、范例与内容,之后通过素材融入、结构规划完成文本生成,并可在系统界面查看引用的素材来源。
档案智能语义检索系统
用户通过文字或语音描述档案查询诉求,系统语义理解后,通过语义检索方式返回查询结果。
当然,目前类似ChatGPT式的大语言模型技术均为在线部署,因档案领域信息安全考量须离线部署,这对模型训练成熟度和可落地性提出了更高要求。
综上, AI为档案管理的变革与发展带来了新机遇,同时AI也在重塑档案管理与服务的方式,可以说机遇与挑战并存。建立AI+档案层次框架,可以推动AI在档案管理中的逐层深入应用,实现档案资源的价值重构与知识再发现,这是适应以ChatGPT为代表的新技术变革的重要举措;同时档案行业亟需新技术、新趋势的“百花齐放,百家争鸣”,共同推动新时代档案工作从数字化到数据化再到智能化直至智慧化的纵深开拓。
12月6日下午,“公共数据存力成本研究课题研讨会”在鸿翼数据要素产业园顺利举行。···
近日,中国数字化市场专业服务平台爱分析正式发布《2024爱分析·大模型+知识库市···
为了确保数据的高质量和可持续供应,加速推进数据要素市场化配置改革,促进数据产业的···
11月15日,第七届长三角科技成果交易博览会系列论坛之“AI+, 安亭+”人工智···
10月29日至30日,第二届“华彩杯”算力大赛全国总决赛在合肥举行,贵安产控集团···
12月6日下午,“公共数据存力成本研究课题研讨会”在鸿翼数据要素产业园顺利举行。···
近日,中国数字化市场专业服务平台爱分析正式发布《2024爱分析·大模型+知识库市···
为了确保数据的高质量和可持续供应,加速推进数据要素市场化配置改革,促进数据产业的···
11月15日,第七届长三角科技成果交易博览会系列论坛之“AI+, 安亭+”人工智···
10月29日至30日,第二届“华彩杯”算力大赛全国总决赛在合肥举行,贵安产控集团···