根据《国务院办公厅关于印发政府网站发展指引的通知》国办发〔2017〕47号及《政府网站网页归档指南》da/t80-2019,网站网页归档势在必行!今天笔者带你走进冠群信息,了解更加专业的网站网页归档技术。
何为网页归档 webpage archiving
网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明“已归档”和归档时间。
在互联网时代,各级政务网站作为政府部门的官方网络媒体,其网页是政府机构业务活动的记录和凭证,是对政务公开等业务信息进行回顾、分析和证明的重要资源,具有凭证价值、情报价值和档案价值。长期妥善保存网站网页,对于记录政府机构的职能活动及保存社会记忆有着重要的意义。
鉴于大部分网站网页存活期不到一年,联合国教科文组织已经将网站网页列为重要的数字遗产来源。国际上发达国家早已经进行网站网页归档工作。1996年,美国成立了世界上第一个因特网档案馆,其任务就是将公开的网页和数字形式的文化产品尽可能完整地归档,到2005年6月,已保存了400亿页网页。1996年,澳大利亚档案馆的网上档案馆正式运行,目标是长期保存有关澳大利亚的网上出版物和澳大利亚的网站,并为公众提供检索入口。2004年,英国正式启动第一个公众网络信息保存计划ukwac,对英国网站信息进行选择性保存。中国政府已认识到网站网页数字遗产的保存工作的重要性,正在紧锣密鼓推行该项工作。
2016年11月3日,中共中央办公厅印发《国家电子文件“十三五”规划》,明确提出推进政府网页电子文件归档。2017年5月,国务院办公厅印发《政府网站发展指引》,指出网页归档是对政府网站历史网页进行整理、存储和利用的过程。2019年12月27日,国家档案局正式发布da/t 80—2019 《政府网站网页归档指南》,标志档案行业正式启动政府网站网页归档工作。冠群信息网站网页归档管理系统,面向政府网站,进行网页采集、生成、归档、管理、利用,实现标准格式的网页电子文件集中存储、统一管理和应用,从而达到对网页电子文件长久保存利用的目的。满足党政部门对本单位网站归档的需求,可对网站网页进行采集,并形成符合国家标准和档案行业标准的电子文件,同时可保存原有网页中的文字、图形、图像和链接逻辑等重要内容,归档后的内容可供用户查询利用。
使用优化的网络爬虫技术,将指定网站的网页采集下来,直接存储为warc文件。
将采集到的网页经版式转换服务转换成ofd版式文件,然后存储到网页电子文件管理系统中,并依据电子文件管理系统通用功能建设要求,对网页电子文件提供自动分类、设定保管周期、鉴定处置、查询利用等管理功能。
用于重现不同历史时间点上采集下来的网站网页信息,利用时间轴方式提供网站展示、专题展示、关键词检索和下载等功能。
冠群信息是参与制订网站网页归档管理系统的核心技术——网页转换格式国家标准gb/t 33190《电子文件存储与交换格式版式文档》和da/t 80—2019《政府网站网页归档指南》)的厂家之一;是该系统另一核心技术warc网页存储格式(国家标准gb/t33994《信息和文献-warc文件格式》)在中国的实践者,拥有自然资源部和国家信息中心等部委级成功案例;是中国网站网页归档管理系统拥有丰富经验的实施者,可以为政府快速构建基于saas模式或独立模式的网站网页归档管理系统。