摘 要:移动互联网的高速发展,带动了社交网络、物联网、云计算的广泛应用,也带来了数据的爆炸式膨胀。显然,大数据时代已经到来。本文从大数据的基本特点出发,讨论当前企业实施大数据所面临的挑战,并提出了为应对挑战,企业所应培养的能力及应对策略。
关键词:大数据;企业管理
近年来,伴随着移动互联网的高速发展,图片、音频、视频、地理位置信息、传感数据等半结构化、非结构化数据大量涌现,同时社交网络、物联网、云计算也得到了广泛应用。这些使得互联网中的个体发布和获取数据的行为变得更加准确和快速。在以互联网应用、电子商务等为首的应用领域中,相关数据的规模与种类都在以极快的速度增长。国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量是1.8ZB。同时该报告预测,到2020年,全球数据量规模将达到35ZB。显然,大数据时代已悄悄来临。
1 大数据时代
目前来看,“大数据”还没有统一的定义。IT行业的大型机构和组织都提出了“大数据”定义,其中以麦肯锡2011年在题为《大数据:下一个竞争、创新和生产力的前沿》的研究报告中的定义被引用最频繁。麦肯锡认为,“大数据”是指其大小超出了传统意义上的尺度,且典型数据库软件难以对其进行采集、储存、管理和分析等处理的数据集。[1]一方面,大数据标准下的数据集大小是变化的,会随着时间推移、技术进步而增长;另一方面,应用大数据的不同领域中,符合其行业标准的大数据集规模也有差别。该报告同时指出,当前,数据已经渗透到各个行业和业务职能领域,并逐步上升成为重要生产因素;而大数据的广泛应用将预示着新一波生产率增长和消费者盈余浪潮的到来。[1]
目前,信息技术领域认为大数据具有4V的特点。一是数据规模巨大(volume)。目前全球的数据量已经达到ZB级别,并且现行的单个大型应用的数据库中的数据通常也都是在PB级别或以上。二是数据类型众多(variety)。传统数据库以文本格式等结构化数据为主要内容的,大数据时代的数据库包括了图片、音频、视频、网络日志、地理位置信息、传感数据等多种半结构化和非结构化数据,而且这些数据通常占据了系统中的大部分存储资源。三是数据价值密度低(value)。以目前广泛应用的监控系统为例,监控系统24小时不间断地产生监控音视频数据,但是真正能提供有效信息的可能是几个月数据中的几分钟,甚至是几年数据中的几分钟。另一个例子是医学检查通常也会产生大量数据,但是,医生往往是通过其中的少量甚至个别数据对患者进行诊断和治疗。四是数据变化快(velocity)。这包含两方面的要求:既要保证对大数据的整体的高效处理,又要保证对部分数据进行实时的处理和反馈。
大数据的开放和应用,对社会、商业和个人已经产生了巨大的影响,从某些角度,已经上升到了国家战略层面。2012年3月,奥巴马政府出台了“大数据研究和发展计划”,计划投入2亿美元,用于推动大数据相关的收集、存储、保留、管理、分析和共享大数据技术的研究,以提高美国的科研、教育及国家安全能力。我国“核心电子器件、高端通用芯片及基础软件产品”(简称“核高基”)科技重大专项也将非结构化数据管理作为需要重点突破的关键技术加以重点支持。2012年5月联合国推出了名为“全球脉动”(Global Pulse)的新项目。该项目旨在通过为各国提供对互联网实时数据的分析,更及时地了解人们所面临的困难和挑战,尤其是全球性危机的影响,并提出改善决策,为宏观经济的发展决策提供支持数据及信息。[2]大组织、大机构通过资金支持大数据的科学研究,进而推动大数据科学相关核心技术发展,大数据科学的发展趋势已不可阻挡。
当前大数据几乎推动着生活的方方面面。在科学研究领域,大数据完全改变了天文学、生物信息学、生命科学和物质科学等领域的工作方式。在应用领域,在移动服务、零售制造业、金融业等一批应用较早的领域中,大数据已达到史无前例的规模,而在教育、医疗、城市规划、智能交通、环境建模、节能减排、智能材料、社会计算、金融风险、国土安全、计算机安全等新领域中,大数据也开始展现自己强大的推进力。
2 企业发展大数据所面临的挑战
2.1 数据异构性和不完整性
由于传感器的存在以及人的参与度的提高,在各种应用系统的运行过程中,自动、主动数据大量涌现,这些数据构成了大数据的主要来源。目前,计算机分析算法只能处理同构的数据,并自动忽略细节上的差异。保持数据结构和尺寸的相对一致,能有效提高信息化系统的运算效率。身处大数据时代,人们使用信息时,必然会产生大量的半结构化和非结构化数据。因此,大数据技术首先便是将数据结构化。此外,在数据获取的过程中,如何根据特定应用的需求,在大数据中摒除可能影响判断的错误数据和无关数据,保证数据质量,高效抽取相关的有效数据将非常重要。
2.2 数据量持续性的爆炸式增长
数据量大是大数据的一个基本属性。大数据的数据增长速度已经超过了计算资源的增长速度。由于理器的时钟速度已经很难继续提升,当前主要以增加计算核心数目的方法来提升系统计算能力。计算能力的提升思路已经从提升单核计算能力转变到了如何平衡多个计算节点间的资源调配和并发管理。现在大的计算集群开始出现,如何设计、布置和运行计算节点群变得越来越重要。
数据具有广泛可用性,从高速膨胀的大数据中提取价值的能力正是大数据时代我们所欠缺的。一些数据的价值被挖掘出来,但更多的数据其价值却一直被隐藏或丢弃,没能被充分利用起来,两种数据数据量之间差距巨大,形成了大数据鸿沟,对多种类型数据构成的异构数据集进行交叉分析的技术将在大数据时代创造巨大的价值。
2.3 数据处理的时效性要求
在大数据背景下,许多应用要求对分析结果进行实时交互。这要求系统预先计算好部分结果,在新数据到达并分析完毕后,再对结果进行增量结合,迅速得出结果。大数据具有规模大及增长快的双重特性,对于一个给定的大数据集,通常需要迅速定位所搜索的数据。在实际应用中,同样的搜索可能会反复出现。需要设计新的索引结构来支持这类查询。当数据量不断增长而处理时效又很有要求的时候,如何设计和建立索引将变得很重要。
2.4 数据隐私的保护
数据的隐私保护从来既是技术问题,又是社会问题。要保障大数据健康有序地快速发展,必须从这两方面妥善解决数据隐私保护的问题。如何分享隐私数据,才能让数据在正常使用的同时不会泄露,就目前而言,还没有特别有效的方法。通常我们共享很多看起来不那么重要的私人数据,如地理位置信息等,似乎不共享的信息就是安全的。但对于有些并不由自己保管的一些信息,如健康记录信息、消费信息等,也很有可能泄露。数据泄露会带来什么直接后果,泄漏后的数据和我们共享的数据会以怎样的形式与其它数据一同被交叉连接起来,连接分析后的数据有多少价值和用途我们根本不知道。虽然现有的关于隐私保护的探究在学术领域取得了一定的成果,但是这些研究成果还不能在实际中广泛应用。大数据时代如何确保信息共享的安全性,如何做好信息共享安全控制将会成为一个重要的研究方向。
2.5 跨平台数据的关联与整合
目前企业中的几个现状:不同的业务模块的数据分布在不同的系统平台,各项数据相互独立,难以在一个平台进行集成整合;不同业务模块间,数据不共享、不关联;收集整合核心业务数据,但常常忽略非核心数据。数据随着业务模块的相互分离而被割裂开来,数据之间缺少关联,企业自然就失去了各项数据连接后所能带来的价值。现行系统中,数据来源不同,数据标准难以统一,企业将如何实现跨平台对数据进行关联整合也是其在大数据时代谋求发展的一个巨大挑战。
2.6 大数据时代人的参与
大数据的分析不是纯计算的,而是人机交互的。[3]目前,计算机在大数据的分析过程中还有局限性,常常需要有人参与大数据的分析过程中。一个典型的例子就是“众包”(Crowd-sourcing),通过利用人类的集体智慧来回答问题或解决问题。很多源自大众的数据并不是都完全准确,存在一定的不确定性和误差。由于存在数据采集设备固有的不确定性,我们必须通过利用时空相关性更好地评估这些数据的正确性。
2.7 数据驱动的战略决策
移动互联网、政府/企业信息化、社交网络发展的脚步越来越快,带来了数据的爆炸式增长,这些数据将对机构从战术到战略的各个方面产生影响。麻省理工学院Erik Brynjolfsson教授认为,基于数据分析的决策实现的生产增长率相较其他因素要高5%到6%。在大多数行业,这种增长率能够决定行业内竞争博弈的胜负。企业决策将基于数据和分析做出,这是企业所面临的巨大挑战。
2.8 大数据的能耗问题
大数据的发展带来的还有数据中心的计算规模和存储规模的不断扩大。从小型集群到大规模数据中心都面临着不同程度的高能耗的问题。大数据管理中,能耗由硬件能耗和软件能耗组成,其中以硬件能耗为主。在能源价格上涨的今天,如何降低硬件能耗将是大数据系统建设和维护过程中一个不可忽略的因素。
2.9 硬件协同
大数据的快速发展在一定程度上得益于硬件设备的快速升级,但是也使得系统硬件环境日益复杂。同一系统在多次升级后,大量不同架构硬件共存,不同时期购入的不同厂商的服务器在IO、CPU速度等性能方面会有较大差异,整个数据集群内部设备之间的性能会存在明显差异,也就产生了硬件环境的异构性。由于任务处理的时间主要受处理过程中处理时间最长的节点制约,如果数据集群中,各环节设备数据处理能力差异过大,将会因“木桶效应”受到明显限制,大量的计算时间浪费在高性能设备对低性能设备的等待上。在小型数据集群或新建数据集群中,这种问题并不明显,但当这种硬件环境的规模拓展到数以万计的大型或超大型集群时,问题将变得复杂和难以处理。如何设计数据处理系统配套的存储、I/O及计算处理系统是一个巨大挑战。
3 大数据时代挑战的应对策略
一是做好网络融合。大数据时代,企业要更加注重对新型数据的获取和来源管控,通过多种渠道获取信息,并从中挖掘出更多的价值:(1)要整合新的接触渠道,充分利用网络资源,通过发展多种线上线下的交流形式,增近客我互动与相互了解。(2)要注重内部数据与外部数据互联,形成更加完整的客户视图,促进客户关系高效管理。(3)有意识地对新型数据进行创造性的利用,不断进行产品创新、服务创新和精准营销。(4)注重对新型信息获取渠道中的舆情实时监测,在舆情事件发生前就及时进行有效处理,最大程度上降低负面影响。
二是做好平台布局、数据融合。大数据时代企业的核心竞争力逐渐受其所拥有的经营数据所影响。为把握竞争主动权,企业可以选择通过自行搭建大数据平台,成立数据中心,掌握行业大数据,巩固和进一步提升自身竞争优势。同时,在新建大数据系统应充分考虑系统功耗,认真核算使用老旧设备的成本效益,在采用新型低功耗硬件、高速硬件和系统建设成本间寻找综合平衡点。
在积极竞争数据控制的主动权以外,机构间也需要加强合作互利。完整而综合的大数据必然是难以被某一机构单独掌控的,垄断大数据的想法也是不可行的,各个主体之间博弈的最终结果必然是通过分享数据走向合作共赢。政府、企业、银行、运营商、电商、社交网络等大数据平台间开展在认同大数据价值的共识下,通过共享和利用平台数据,推进数据交叉整合将为参与整合的各个节点提供强大的前进驱动力。
三是培养核心能力。首先是数据整合能力。大数据时代不是突然来临,大数据系统的建设也不是一步到位的。大数据系统的建设通常以原有的来自多个系统平台的软硬件和数据作为基础。培养对原有软硬件和数据进行保留扩展性的高度整合的能力,可以让企业在大数据竞争中占得先机。数据整合能力既包含对机构内部单个或多个平台数据的整合能力,也包含对外部共享数据进行整合的能力。大数据时代,企业要在产业链中占据主导地位,必须具有对数据进行快速整合和高效管理的能力。大数据时代,企业应以积极的姿态与其它组织和机构进行数据交换,掌握的数据越完整,所发掘的价值也越大。
其次是数据分析能力:(1)大数据时代不同以往,处理的数据以半结构化和非结构化数据为主。同时数据量与现在存在数量级的差距,很多现有数据处理方法已经不能满足需求。数据量的增大通常也意味着其中错误数据和不完整数据的增多,开发针对半结构化和非结构化数据清洗的高效算法能有效提高对大数据的利用效率。(2)大数据应用非常注重数据分析的时效性。因此算法的应用指标将在准确率和时效性中寻找平衡。(3)云计算是进行大数据处理的有效工具,应对一些可用的算法进行调整以适应云计算的框架。(4)用户越来越关心数据分析结果的展示。大数据时代数据量大,分析更复杂,得到的结果也更加多样化。在结果展示中增加更多的可视化界面和人机交互可以改善用户体验,使大数据应用变得更加易见、易学和易用。
最后是策略执行能力。只有转换为实际的行动的大数据分析和构想才能为企业创造价值。精准和快速是大数据时代策略执行两个非常鲜明的特点。精准取决于通过大数据交叉分析后对客户的全面剖析和深入了解,能够使企业制定出针对性的方案,实行差异化营销和服务。快速取决于系统自动完成大量分析和策略,通过客户行为触发相应的服务和营销活动。
为培养这三个能力,企业需要进行几点改变:首先,要充分认识到大数据的价值,形成价值共识,以大数据指导商业运营和企业管理;其次,企业应当以外部招聘和内部培养相结合的方式,迅速储备数据管理和数据分析相关人才,为自身发展大数据积累力量。再次,在新建大数据应用系统时,应充分考虑大数据下数据的存储、管理、分析和共享,系统的设计不仅要满足当前的使用需求,还应重视大数据的增长对系统扩展性方面的要求。最后,在理想条件下,企业可以根据自身战略决策,对内部组织体系、权力配置、人员架构、资源分配等进行调整,给予大数据部门相应的决策权力比重。
参考文献:
[1]BIG data:The next frontier for innovation,competition and productivity.McKinsey Global Institute.http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,2011.
[2]徐子沛.大数据[M].桂林:广西师范大学出版社,2013.
[3]李翠平,王敏峰.大数据的挑战和机遇[J].科研信息化技术与应用,2013.
|
核心期刊网(www.hexinqk.com)秉承“诚以为基,信以为本”的宗旨,为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。 核心期刊网专业期刊发表机构,为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。 投稿辅导咨询电话:18915033935 投稿辅导客服QQ: 投稿辅导投稿邮箱:1003158336@qq.com |