0引言
科技型中小企业是引领和支撑高新技术产业发展的主体,加快科技型中小企业发展是我市发展工作的一项重大战略举措。科服网作为科技型中小企业的专业服务平台,可以为企业提供认定、文献、金融等服务。科服网统计监测系统是企业各项指标的直接展示平台,可以为政府部门提供数据实时监测和统计分析,有利于定量描述和准确预测,是政府进行科学决策的宝贵数据资源。然而,企业数量突飞猛涨,数据规模日趋庞大,基于业务数据库的统计监测系统对用户查询需求的响应时间过长,不能提供实时服务。为此,科服网统计监测系统引入了数据仓库技术,数据仓库的建立并不是要取代数据库,而是在一个较全面和完善的信息基础上更好地支持高层分析决策。数据仓库是将分析决策所需要的大量数据从传统的数据库中抽取出来,通过统一转换加载而成的、能够实现海量业务数据的存储、管理和多维分析。研究表明,利用它为统计监测系统开展分析与决策服务切实可行。
1数据仓库技术概述
1.1定义
数据仓库(DataWarehouse)最初定义为面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它主要研究和解决从其它数据库中获取数据信息的问题。
1.1.1面向主题
业务数据库是面向事务处理的,而数据仓库中的数据一般是按照主题域划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行的归纳和整理。
1.1.2集成性
业务数据库是异构、相互独立的,无法反映信息的本质。而数据仓库中的数据是经过对数据源的抽取、清洗、转换、加载得到的,在消除冗余数据的同时对数据源进行统一的编码和必要的汇总。
1.1.3稳定性
业务数据库存储某一时刻的数据,而数据仓库反映的是一段时期的数据内容。数据仓库中对数据的操作主要是查询,并不进行任何更新操作。一旦某个数据进入数据仓库,数据会被长期保留,当超过规定的期限才会被删除。
1.1.4时变性
随着业务数据库的不断更新变化,数据仓库需要定期从数据源获得更新的数据,以形成分析和预测需要的历史信息。数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理提供给决策分析人员。
1.2数据获取
数据获取负责完成将数据从数据源向目标数据仓库的转化,是构建数据仓库的核心和灵魂。数据获取是对数据进行抽取、转换、装载处理,主要目标是去除冗余数据以提高数据仓库中数据的质量;将数据按主题组织以提高数据仓库的可用性;定期对业务数据库进行监视以保持仓库数据与业务数据的一致性。
1.2.1数据抽取
数据抽取是指从数据源中抽取数据的过程。数据抽取技术分为全量抽取和增量抽取两种,全量抽取类似于数据迁移或数据复制,将数据源中的数据表全部从业务数据库中抽取出来。增量抽取是指在全量抽取完成后,抽取自源表中新增或被修改的数据。确定构建数据仓库的相关业务数据库和数据表并选择合适的抽取技术,以完成定期的数据抽取工作。
1.2.2数据转换
数据转换是将抽取的数据转换成符合数据仓库要求的数据。从数据源中抽取的数据不一定满足数据仓库的要求,有必要对数据进行转换、清洗、拆分、汇总等处理。数据转换应最大化地参照元数据,通过自定义的转换脚本或其它计算方法解决数据格式不一致、数据输入错误、数据不完整等问题。
1.2.3数据装载
数据装载是将数据从临时表或文件加载到数据仓库的过程。根据数据装载量的大小选择最佳的装载方式完成数据装载任务。
1.3数据存储
1.3.1事实表
事实表是数据仓库的中央表,描述业务内特定事件的数据。事实表存储主题的主干内容,由用户关心的度量值和相关维表的主键组成。事实表的设计以能够正确记录历史信息为准则。
1.3.2维表
维表是用户分析数据的窗口,描述事实表中的数据。维表包含事实表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实表数据。维表中的属性提供了获取从高层次的汇总信息到低层次细节信息的能力。维表的设计以能够合理聚合主题内容为准则。
1.4元数据
元数据是“关于数据的数据”或“关于数据的结构化数据”,即关于数据的内容、质量、状况和其它特性的信息,是数据仓库的灵魂。元数据不仅定义了数据仓库中数据的模式、来源、抽取、转换规则、数据映射和访问权限,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来组成了一个有机的整体。
粒度是指数据仓库中数据单元保存数据的细节或综合程度的级别。粒度是数据仓库设计的重要问题,它直接影响数据仓库中数据量的大小以及数据仓库所能支持的查询类型。非常低的粒度会带来大量数据,系统会因巨大的数据量而导致处理效率低下,非常高的粒度虽然处理起来高效,但却不能进行细节数据的分析。因此,需要在数据量的大小与查询的详细程度之间做出权衡。
2科服网科技型中小企业认定数据仓库的总体结构
科服网科技型中小企业认定数据仓库的管理用户分为市级用户和区县级用户两类,主要对不同层面的多个统计指标进行统计监测,掌握科技型中小企业的数据信息。
2.1数据获取层
主要负责从科技型中小企业认定管理数据库获取构建数据仓库的源数据。
2.2数据仓库层
主要依据各类用户的需求建立多个主题域,从而对数据获取层已获取的数据按照设计好的多维数据模型进行抽取、清理、转换等操作,形成符合系统要求的数据并装载到数据仓库中,以便为各类用户提供决策分析的数据环境。
2.3决策分析层
系统用户在浏览器端进行查询访问,Web服务器及时响应处理各类用户的查询请求,将请求提交给联机分析处理(OnLineAnalyticalProcessing,OLAP)服务器,从而完成对数据仓库的查询分析,返回的查询结果以图表的方式展现给用户。
3科服网科技型中小企业认定数据仓库的数据模型
3.1概念模型
数据仓库的概念模型需要确定系统的范围和涉及对象,即建设内容和主题域。
3.1.1系统边界
根据科服网统计监测系统用户的统计需要,确定市级和区县级两类用户。用户的具体功能如下:
市级用户:能够在全市、滨海新区、科技小巨人3个层面对多个主题域的多个统计指标进行数据的实时查询与分析,同时可以通过综合统计查询栏目选择关注指标进行信息的检索。
区县级用户:仅能够在全市范围对多个主题域的多个统计指标进行数据的实时查询与分析,同时可以通过综合统计查询栏目选择关注指标进行信息的检索。
3.1.2主题域
根据科服网科技型中小企业认定管理数据库中数据的涉及范围和关系模式以及用户的统计关注度,确定了企业数量主题、企业财务主题、科技人员主题、研发经费主题、知识产权主题、帮扶情况主题等主题。
|
核心期刊网(www.hexinqk.com)秉承“诚以为基,信以为本”的宗旨,为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。 核心期刊网专业期刊发表机构,为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。 投稿辅导咨询电话:18915033935 投稿辅导客服QQ: 投稿辅导投稿邮箱:1003158336@qq.com |