为加强陕西华春网络科技股份有限公司数据资源采集和使用规范,降低人为因素的影响,使标准的技术方法长期延续并加深用户对数据资源使用的了解,在数据采集和使用过程中将采取标准的流程、技术和方法等形成数据资源采集和使用规则,并发布实施。
一、数据采集和使用总体要求
数据资源采集和使用过程中,采用数据应用环境建设与服务项目发布的有关标准规范,以及相关技术标准规范,完成对数据采集和使用工作的组织管理,规划数据资源加工流程,严格贯彻实施,保质保量完成数据采集和使用任务。
对网络数据资源采集和使用的要求包括多个方面,规范技术人员操作,信息来源,技术要求等。数据采集、筛选清理、处理加工、审核、更新等流程,是数据资源高质量建设和使用的有效保障。
二、数据采集和使用原则
(一)遵守国家针对数据安全相关的法律、法规;
(二)保证采集数据的全面真实。采集的数据必须根据规定的要求,采集到所需要的全部数据,并且保证数据准确真实。
(三)因不同的数据板块有所差异,采用不同的采集方法和不同的质量控制要求。
(四)注重基础性和共性数据的采集和使用,确保所承建数据资源的广度,提升数据资源的通用性、易用性,保证数据资源具有一定的用户范围。
(五)数据资源采集和使用在统一决策、同一数据库范围内工作方法统一,技术指标统一,达成数据产品的一致性。
(六)数据采集和使用的内容应在一定时间范围内具有较好的延续性,使数据资源建设和使用的内容相对保持稳定,增加数据的时间可比性,数据资源采集加工的内容确定应相对慎重。
三、信息来源筛选原则
为确保数据产品的质量,抓取时对原始数据获取来源进行选择,建立数据来源的准入门槛,从开始阶段就对数据资源质量进行控制。
数据来源可以是工程行业各类网站的公开门户,包括:招投标、项目信息、采购新、产信息、展会新、资讯信息门户等也可以是。
考虑到所收集数据的可靠性,数据来源均应为公开工程行业信息网站,政府网站、各地招投标信息资源交易中心等来源的数据。
数据来源筛选的原则可以包括但不限于以下方面:
数据来源的时间、业务范围符合建筑市场与交易网的使用预期;
数据来源的数据规模满足需求;
数据来源使用的数据格式符合需求;
数据来源的技术指标,如准确度,精确度水平等;
数据来源是否具有完整的元数据或相关资料描述。
四、数据采集和使用技术要求
(一)数据采集的内容和各项指标的采集方法根据事先拟定的规则进行,力争做到不缺不漏,其中核心指标项必须采集;
(二)如涉及图像,一般拍摄对象的正面及侧面图像,必要时还应拍摄细部、标题等部位的图像;
(三)数据采集中,对有明显错误或不符合规律的数据亦予以剔除;
(四)如果存在相关的国家标准或行业标准,数据采集和指标应严格遵照相关的标准规范进行;
(五)数据在加工处理过程中必须始终保持与原始数据的一致性和完整性,不能出现丢失或改变原始数据的情况;
(六)加工处理的数据必须是经审核通过的采集数据;
(七)数据加工处理使用的程序必须是经测试和试用被证明是具有良好的稳定性、可靠性和容错性;
(八)数据采集加工处理人员必须是具有资格、并经过授权的专业技术人员。
(九)采集的数据进行加工制作,包括查重、校对、审核、入库、汇总等,最终形成各种专项数据以供用户使用。
查重:对收集到的数据在已建数据库中查重;
标引:分类标引和主题标引;
校对:对数据准确性、数据内容全面性、数据著录规范性等进行校对;
入库:数据存入数据库;
汇总:由原始数据汇总生成综合数据。
五、数据采集和使用工作流程
(一)从数据来源查询获取数据,并按照一定的规则整理收集;
(二)对数据采集加工工作的过程方法进行设计,确定为达成数据采集加工目标所必须的过程输入输出规格要求;
(三)在数据记录中采取注明数据来源的方法给用户提供参考;
(四)数据采集相关技术人员针对数据来源进行标记;
(五)如果存在信息单位不一致的情况,则先进行换算单位,应注明单位换算的情况;
(六)审核相关数据项内容采集的正确性;
(七)各类数据信息正式发布使用。
陕西华春网络科技股份有限公司
2018年10月9日