企业数量主题:展示科技型中小企业在时间、区县、领域、产业、阶段等维度的分布和增长情况。突出企业集中分布的区县、领域、产业等,为政府部门在宏观上进行调控与配置提供数据支持,例如预测下一个统计月份企业分布及增长情况、企业是否过于集中、对环境的影响如何等。
企业财务主题:展示企业在时间、区县、产业、阶段等维度工业总产值、净利润、总收入、主营业务收入、总资产的分布情况。预测企业的盈利状况并有针对性地进行指导和支持。
科技人员主题:展示科技人员在时间、区县、产业、阶段等维度从业人数、科技人员数和科技人员占比率的情况。预测科技人员占比状况,有利于企业加大对培训学习的力度,提高员工的整体素质。
研发经费主题:展示科技经费在时间、区县、产业、阶段等维度的分布情况,主要包括科技活动经费支出、科技项目数、科技项目经费、国家财政拨款、市政财政拨款、区县财政拨款、企业资金、金融机构贷款、国外资金、其它资金来源的使用情况。了解企业的研发能力以开展各项研究项目。
知识产权主题:展示知识产权在时间、区县、产业、阶段等维度申请专利数、授权专利数、拥有企业标准数、拥有有效专利数、注册商标数的分布情况。了解企业的创新能力以促进科技成果转化。
帮扶情况主题:展示企业在区县、阶段等维度干部总数、帮扶干部数、帮扶企业数、帮扶干部占比的分布情况。了解政府干部深入企业工作的成果状况,有利于开展帮扶工作。
3.2逻辑模型
数据仓库的逻辑模型设计采用星型模型。维度是多维数据集的一种结构特性,是描述事实表中数据类别的有组织的层次结构,是创建多维数据集必需的条件。以全市统计监测中企业数量主题所关注的问题为例,需从以下维度进行考查分析:
时间维:是数据仓库中常用的维表,本系统对企业数据的分析与比较需要与时间关联起来,在多个时间级别上进行观察分析。时间维细化到日,存储年、月、日、季度等信息。时间维应用在多个主题域中,称为共享维。
区县维:主要统计天津市的各个区县,包括市内六区、四郊五县及滨海新区的企业数量信息,把握企业在各个区县的分布和增长情况。
产业维:主要统计各个产业的企业数量信息,把握企业在产业的分布和增长情况。产业维细化到一级分类,存储农业、工业、科技服务业等信息。
领域维:主要统计各个领域的企业数量信息,把握企业在领域上的分布和增长情况。领域维细化到一级分类,包括电子信息、生物与医药、新材料、光机一体化等。
阶段维:主要统计各个阶段的企业数量信息,把握企业在企业成长的不同阶段的分布和增长情况。阶段维存储初创期、成长期、壮大期3个阶段的信息。
企业数量事实表:包含用外键进行关联的维度信息和相关统计指标的度量值。时间维、区县维、产业维、领域维、阶段维为共享维,可以在多个主题的数据集中使用以节省空间。数据仓库的逻辑模型如图1所示。
3.3物理模型
数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的具体实现模式,包括各种事实表的具体化,如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。
根据科技型中小企业认定数据仓库的实际应用情况,为满足管理用户对数据的多维查询和统计监测,需要存储每日全市、滨海新区、科技小巨人三类企业的多个统计指标的累计数据。同时需要存储各个维度相关的维表数据。由于事实表包含的数据量巨大,会影响查询和统计的速度,这时需要通过建立连接索引或物化视图等方式来提高查询的效率。
物化视图将查询视图预先计算并以表的形式存储在数据仓库中,当执行OLAP查询时,可以直接从物化视图中获取查询结果,避免了对底层数据的复杂操作,从而提高查询效率。但是当基表发生变化时,视图可能需要进行刷新,存储空间和维护开销加大。物化视图是一类特殊的视图,在数据仓库中不仅存储了物化视图的定义,还存储了物化视图所对应的实际数据。物化视图选择的目标就是在空间限制下,选出一组恰当的视图物化,使得其对一组查询的总查询代价和其自身的维护代价之和最小。物化视图技术是数据仓库系统中提高性能的关键技术之一,是将视图所对应数据加以实际物理存储的技术,其目的是通过预计算来加快数据仓库对用户查询的响应速度。
聚集表是为提高查询速度,对常用的需求进行求和运算的查询,预先对事实表中相应的某些维在最小级别上进行向上的分组求和运算,形成新的具有更高粒度级别的事实数据表。在进行查询操作时,系统首先查询相应聚集表,若有满足条件的聚集表则可直接返回查询结果;否则,继续查询对应事实表,并作相应运算。
数据仓库采用物化视图和聚集表相结合的方式存储事实表。
4数据仓库技术在科服网统计监测系统中的应用
4.1具体应用
天津市科技型中小企业服务网的统计监测系统包括全市统计监测、滨海新区统计监测、科技小巨人统计监测和综合统计查询4个主题,每个主题又包含多个统计指标。以全市统计监测中的企业数量为例,详细讲述数据仓库的应用。
在充分了解科技型中小企业认定数据仓库的内部特征、存储结构、存取方法及逻辑结构的基础上,制订了数据仓库的物理结构,即数据抽取时间,维表为每天的零点,事实表为每天的1点,并建立了自动执行任务。物理结构设计如图2、图3所示。
企业数量按时间、区县、领域、阶段和行业5个维度进行分布,以企业数量、月增长趋势、年增长趋势作为统计指标,并对全市、滨海新区、科技小巨人企业3个层面进行汇总,生成相应的柱形图和统计报表,从宏观上把握企业数量分布。如图4所示。
参考文献:
[1]于红蕾,华庆一,刘燕玲,等.数据仓库在电信统计分析中的应用[J].计算机技术与发展,2007(8).
[2]陈学萍,程景云,徐安宁.基于数据仓库的企业财务决策支持系统分析与设计[J].计算机辅助工程,2004(1).
[3]刘荣生.数据仓库技术在统计信息系统中的应用[J].科技情报开发与经济,2005(8).
[4]张瑞.ETL数据抽取研究综述[J].软件导刊,2010(10).
[5]罗先贤.数据仓库在城市公共建筑能耗管理中的应用[J].计算机应用,2011(10).
[6]翟玉梅,曹亚君.基于数据仓库的电子订货系统设计及仿真[J].计算机仿真,2012(5).
[7]刘权,肖智博,鲁明羽.面向科学基金管理数据数据仓库概念模型设计[J].计算机工程与应用,2009(36).
|
核心期刊网(www.hexinqk.com)秉承“诚以为基,信以为本”的宗旨,为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。 核心期刊网专业期刊发表机构,为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。 投稿辅导咨询电话:18915033935 投稿辅导客服QQ: 投稿辅导投稿邮箱:1003158336@qq.com |