您好,欢迎访问河北盛美智能集团股份有限公司官方网站!
四川省成都市某能源集团有限公司     西藏阿里地区某服务中心档案馆     广西省钦州市某新能源有限公司     陕西省汉中市某院     甘肃省电投某发电有限责任公司     西藏阿里地区人民某院     浙江省衢州市某院     宁夏固原市彭阳县职业技术学校     内蒙古锡林浩特某风力发电公司     贵州省建设职业技术学院     福建省厦门高新学校     重庆某军军医大学     内蒙古赤峰市某委员会     黑龙江省七台河市档案馆     山东省某航空学院     西藏那曲市某局     广东省阳春市某委员会     湖南省长沙市某委员会     辽宁省朝阳市人力资源某局     山东省临沂市光明电力服务有限公司     内蒙古通辽市某档案馆     吉林省长春市某院     黑龙江伊春乌翠区档案馆     广西省贺州学院     山东省泰安市某局     江苏省宝应中学     河北省邯郸市某档案管理中心     湖南省湘北市东昱建设     山东省青岛富建公寓段     陕西省延安石油化工厂     西藏日喀则市桑珠孜区人民某院     海南省应急管理某厅     黑龙江省某厅     湖北省远大生命科学(武汉)有限公司     内蒙古正蓝旗人民某院     内蒙古赤峰市喀喇沁旗人民某院     江苏省无锡天盈建筑科技有限公司     山东省济南实验中学     吉林省磐石某部     江苏省邳州档案馆     天津静海区生态环境某局    
当前位置: 首页 > 新闻中心 > 公司新闻 > 两会聚焦 |档案部门无疑是人工智能大模型所需的高质量语料的天然产地
新闻中心
News Center
联系方式
Contact
电话:0318-5899998
邮箱:shengmeigroup@sina.com
地址:河北省衡水市中湖大道 3999号盛美智慧档案产业园
网址:www.shengmeigroup.com
详细新闻
当前位置: 首页 > 详细新闻

两会聚焦 |档案部门无疑是人工智能大模型所需的高质量语料的天然产地

作者:河北盛美智能集团股份有限公司 来源:www.shengmeigroup.com 发表时间:3/10/2026 浏览:次  百度一下

作为一名在智能物联领域深耕20余年的科技工作者,浙江宇视科技有限公司研究院院长、杭州电子科技大学教授周迪自担任全国人大代表以来,脑海里便装下了一个又一个科技“金点子”。在数字浪潮奔涌而至的当下,他对新技术如何赋能千行百业思考得更深入了。

“档案部门作为国家基础性、战略性信息资源的保管者,不仅是AI(人工智能)技术的应用者,更应当是AI治理的参与者和示范者。”周迪在今年全国两会期间接受本报记者专访时表示。

近年来,随着全球人工智能领域竞争的日趋激烈,语料库的规模和质量越来越成为牵动人工智能大模型发展的“牛鼻子”。由于中文互联网起步较晚,缺乏深厚、优质的内容积淀,大大制约了我国人工智能大模型的技术创新和国际竞争力提升。破局的关键点在哪?周迪将目光瞄向了档案。

国家档案局公布的最新数据显示,全国各级综合档案馆馆藏档案13.8亿卷(件)、纸质馆藏资料4513.2万册、馆藏电子档案2812.7TB。如此宏大的体量,加之原始记录的真实属性和凭证价值的信用背书,档案部门无疑是人工智能大模型所需的高质量语料的天然产地。

周迪表示,档案部门想做好“语料供应方”,既要练好内功,又要搞好外联。他敏锐地发现,很多档案资料为手写体、繁体字或扫描件,属于典型的非结构化数据,机器难以直接读取。他提出,要利用OCR(光学字符识别)、NLP(自然语言处理)等技术,开展大规模的档案全文识别与语义分析,深挖档案中的实体、关系与事件,并将图像数据转化为文本数据,把“沉睡的图片”转化为“可计算的语料”。同时,针对文书、图纸、音像等不同类型的档案,建立多模态语料标准,确保供给的语料“机器可读、算法可用”。此外,应主动对接国家公共数据开放平台,将经过脱敏、可公开的婚姻、学籍、工龄等民生档案转化为标准化的AI训练数据,并在参与公共数据开放时,对符合条件的档案数字资源进行授权运营,以实现数据价值最大化。

在周迪看来,AI技术的落地除了依托高质量的数据,还需要统一的接口。“我们在调研中发现,目前各地、各行业档案数字化程度和标准并不统一,如扫描件分辨率、元数据著录规则、档案数据要素分析颗粒度等,这直接影响了AI识别和训练的准确率。”为此,他建议,制定档案管理系统与AI算法平台之间的通用接口标准,打破“数据孤岛”,避免各地重复建设不兼容的系统,实现跨馆、跨地区档案数据的互联互通。针对不同的应用场景,如手写体OCR、音视频字幕生成、知识图谱构建、敏感词过滤等,制定具体的技术参数要求和准确率验收标准。

AI的应用既是发展的助推器,也是风险的集聚场。如何筑牢档案安全的“铜墙铁壁”?怎样规避数据伦理中的价值偏见?习惯于用技术理性逻辑分析问题的周迪给出了他的解决方案——

1.划定数据红线,明确规定哪些档案数据可以用于公有云大模型训练,哪些只能在本地进行私有化部署。

2.建立“人机协同”审核机制,对AI生成的资政辅政决策建议、开放档案划控鉴定、辅助编研成果等内容,明确档案员在AI应用中的最终责任。

3.加强算法安全管理,对应用于档案行业的AI算法进行安全评估和备案,杜绝算法被恶意攻击导致数据泄露或档案篡改。

4.防止算法偏见,在训练数据的选择上,保证档案样本的多样性,避免因历史数据的不平衡导致AI在档案鉴定或开放过程中产生伦理偏见或歧视。

“从相加到相融,档案与AI要想默契地携手共舞,还需要很长的一段磨合期。”周迪的话语中透着理性和务实。他建议,档案部门与高校、科研机构、头部AI企业共建档案AI联合实验室。针对档案手写体识别、档案历史文献修复辅助、多语种翻译等“卡脖子”技术开展攻关,深度探索档案富矿,为人工智能大模型筑基。同时,在科研阶段就植入“伦理审查”和“安全设计”,确保技术产出即合规。此外,还需依托行业学会,积极参与国家层面的AI伦理规范制定。特别是在AIGC(人工智能生成内容)领域,对于AI生成的“虚拟档案”或“编研内容”,如何打上不可篡改的AI生成标签,防范语料污染、防止历史虚无主义。这既是档案部门的使命所在,也是发挥优势贡献智慧的重要课题。


上一篇:2026全国两会提出发展档案事业,为新时代档案工作指明方向!
下一篇:两会聚焦 |让红色档案“活”起来!从历史珍藏变为发展“源头活水”
网站首页         走进盛美        盛美产品        盛美资质        经典案例        新闻中心        盛美售后        联系盛美        
服务热线
0318-5899998
Copyright  ©  2018  河北盛美智能集团股份有限公司  版权所有   
电话:13043180082 0318-5899998  
集团总部 河北省衡水市中湖大道3999号盛美智慧档案产业园
城市推广列表   冀ICP备19023016号-4
友情链接: 暂无友情链接 ! | 

手机网站
在线客服
热线电话

盛美智能集团
北京分公司为您服务
北京分公司