表3硬件配置 硬件名称硬件描述数量 2xE5560QC2.8Hz处理器,8GB 机架服务器PC3~8500DDR3内存,2x146GB10KB硬盘 高性能HS22刀片服务器,2x1 刀片服务器E5560QC2.8Hz处理器,8GBPC3~8500DDR3内存,2x146GB10KB硬盘10 光纤交换机中心存储光纤交换机含24x4GB端口,短波SFP模块2 存储阵列DS5300存储服务器,28TB光纤硬盘1 交换机Cisco6509,6电口交换机,双冗余电源1 将1台机架服务器作为主控结点,其他10台刀片服务器作为计算结点,通过光纤交换与存储陈列实现数据的快速存储与访问,可以满足海量数据挖掘的需求。 实验的软件环境为Linux操作系统,传统云平台环境是HadoopO.20.203与HadoopStudio,Java开发工具Eclipse,采用1.6.x版本,改进后的云计算环境是改进后的HadoopO.20.203,在其中加入了启发式搜索算法的中间件。 实验数据集分为人工模拟数据集与真实数据集2种。人工模拟数据集采用通用的图生成器来生成,可通过不同参数控制图的产生,并人为给每条边赋予一个权值并满足均值为m,方差为d2的正态分布。真实数据集采用NC/-//V化合物数据,可以从http://dtp.nci.nih.gov/上下载得到,对数据集进行预处理操作,将化合物的边与结点进行规范化命名以及根据化合物类别与边的属性添加边权值。 5.2实验设计与结果分析 实验共分为两部分,第一部分实验在模拟数据集上进行,首先生成不同规模的动态图数据库,生成参数设置为:GDB:MT40L500i22V6E6C0.2P0.5,数据规模为:D10,D15,D20,D25,D30,在最小能耗优化云与传统云平台中进行实验,在计算系统能耗时,需要对系统的运行情况进行监控,记录计算结点的数量、任务个数、执行时间等运行要素以得到系统空闲能耗与执行能耗,并最终得到平均能耗。实验结果如图3、图4所示。? 图3表示在传统云平台与最小能耗优化云中进行动态图挖掘的平均能耗对比,可以看出,最小能耗优化云的平均能耗要优于传统云平台,并且随着数据规模的增大,能耗优势愈明显。而能耗的优化并没有影响到算法在平台中的执行效率,图4给出了不同规模数据库在最小能耗云模型中的运行结果,从中可以看出,随着数据规模的增大,算法的加速性能越好,原因在于数据越多,所需的计算结点数量与计算任务也会越多,结点的空闲时间与消耗成本也会越少,可以充分发挥结点的计算性能,因此整个系统加速性能就越好。同时结点的数量也会影响到加速性能,结点数越多,系统计算性能越强,加速性能也就越好。 接着生成不同复杂程度的动态图数据库,主要调整动态图的边权值p使边的存在可能增加,生成参数设置为GDB:D10MT40L500i22V6,复杂度设置:CR1=E6C0.2P0.5,CR2=E7C0.3P0.6,CR3=E7C0.4P0.7,CR4=E8C0.5P0.8,CR5=E8C0.6P0.9。在最小能耗优化云与传统云平台中进行实验,平均能耗实验结果如图5所示。 从图5可知,随着边权值与图复杂程度的增加,系统的能耗也随之增加,这是由于边权值增加直接导致边的存在概率增加,候选子图在动态图数据库中的期望支持数也会增加,因此将会产生更多的频繁子图模式,所以算法需要更大的时间成本,导致了系统平均能耗的增加。同时图越复杂,计算结点的计算量会随之增加,如大量的子图同构测试等,因此系统的执行能耗与平均能耗也会增加。 第二部分实验在真实数据环境下测试最小能耗优化云模型与动态图挖掘算法。获取44000多个NCI4HV化合物数据并进行预处理操作,预处理后的化合物结构至少包含100个~200个结点与边。将所有数据分解成5个小的数据集,大小分别为5X103,6x103,8x103,10x103,14x103。在最小能耗优化云模型与传统云平台下进行实验,结果如图6所示。 从实验结果可以看出,在真实环境下,最小能耗优化云的能耗明显优于传统云计算平台,这是因为NCI4HV化合物为大图结构,结点与边的数量远大于模拟数据,因此在挖掘频繁子图模式时,需要更多的计算成本与消耗更多的系统资源,而最小能耗优化云模型能有效地对任务与资源的分配进行合理调配,在保证运行效率的前提下,最大程度减少了系统的能耗。将图6与图3、图5的实验结果进行对比可以发现,在数据量多的模拟数据集情况下,能耗反而远小于数据量少的真实数据集,这也正好验证了在复杂大图模式下的图挖掘需要付出更多的系统运行成本,消耗更多的系统资源。 6结束语 本文提出一种基于最小能耗优化的云模型与大规模动态图挖掘算法,该算法解决了海量图挖掘问题。为了改进传统云计算平台的任务随机调整策略,提出总消耗成本目标函数,并设计基于启发式的任务动态分配算法,以达到系统资源消耗的最小化。并且改进图挖掘串行执行方式,提出一种基于MapReduce的大规模动态图挖掘算法,提高了动态图挖掘效率。实验结果表明,该算法具有较高的运行效率,同时在一定程度上降低了系统能耗。下一步将继续优化最小能耗云模型与动态图挖掘算法,以进_步提升挖掘效率与降低系统能耗。同时可以扩展最小能耗云模型,并将其应用于其他数据类型的海量数据挖掘中。 参考文献 [1]覃雄派,王会举,杜小勇,等.大数据分析一一RDBMS与MapReduce的竞争与共生J.软件学报,2012,23(1):32-15. [2]TDWIChecklistReportIBigDataAnalytics[EB/OL]. (2010-08-40).httpl//tdwi.org/research/2010/08Big-Data-Analytics.aspx. [3]ZouZhaonian,LiJianzhong,GaoHong,etal.MiningFrequentSubgraphPatternsfromUncertainGraphDataJ.IEEETransactionsonKnowledgeandDataEngineering,2010,22(9):1203-1218. [4]PotamiasM,BonchiF,GionisA,etal.K-learestNeighborsinUncertainGraphs[C]//ProceedingsofVLDBJ10.Singapore:Is.n.],2010:9974008. [5]张海杰,姜守旭,邹兆年.不确定图上的高效top-^近邻查询处理算法J].计算机学报,2011,34(10):18854896. [6]HuaM,PeiJ.ProbabilisticPathQueriesinRoad Networks:TrafficNncertaintyAwarePathSelection//Proceedingsofthe13thInternationalConferenceonExtendingDatabaseTechnologyLausanne.Bern, Switzerland:&.n.],0101347-358. [7]李鸣鹏,邹兆年,高宏,等.不确定图上期望最短距离的计算J].计算机研究与发展,2012,49(10):2208-2220. [8]蔡伟,张柏礼,吕建华.不确定图最可靠最大流算法研究J].计算机学报,2012,35(11):2371~2380. [9]YildirimH,ChaojiV,ZakiMJ.GRAIL:AScalableIndexforReachabilityQueryiesinVeryLargeGraphs[J].TheVLDBJournal,2012,21(4):509-534. [10]AtreM,ChaojiV,ZakiMJ.BitPathLabelOrder ConstrainedReachabilityQueriesoverLargeGraphsC]// (上接第22页) [3]HerlockerJL,KonstanJA,BorchersA,etal.AnAlgorithmicFrameworkforPerformingCollaborativeFiltering[C]//Proceedingsofthe22ndAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.NewYork,USA:ACMPress,1999:230-237. [4]Castro-SchezJJ,MiguelR,VallejoD,etal.AHighlyAdaptiveRecommenderSystemBasedonFuzzyLogicforB2CE-commercePortals[J].ExpertSystemswithApplications,2011,38(3):2441-2454. [5]SarwarB,KarypisG,KonstanJ,etal.Applicationof DimensionalityReductioninRecommenderSystemA CaseStudy[C]//ProceedingsofWebMiningforE-commerceWorkshop.NewYork,USA:ACMPress,2006:16-20. [6]彭石,周志彬,王国军.基于评分矩阵预填充的协同过滤算法J].计算机工程,2013,39(1):175~178. [7]李鹏飞,吴为民.基于混合模型推荐算法的优化J]. Proceedingsofthe19thInternationalConferenceonWorldWideWeb.NewYork,USA:ACMPress,2012:41-50. 11]SonJ,ChoiH,ChungYD.Skew-tolerantKeyDistributionforLoadBalancinginMapReduceJ].IEICETransactionsonInformationandSystems,2012,95(2):677-680. 12]GrzegorzM,AusternMH,BikAJCetal.Pregel:ASystemforLarge-scaleGraphProcessingC]//Proceed-ingsofSIGMOD'10.Indianapolis,USA:[s.n.]2010:135445. 13]AveryC.Giraph:Large-scaleGraphProcessing InfrastructiononHadoop[C]//ProceedingsofHadoopSummit.SantaClara,USA:&.n.],0111215-222. 14]TysonC,NeilC,PeterA,etal.MapReduceOnline[C]//ProceedingsofNSDI'10.SanJose,USA:[s.n.],2010:33-48. [15]谭一鸣,曾国荪,王伟.随机任务在云计算平台中能耗的优化管理方法J].软件学报,2012,23(2):266-278. 16]LeeYC,ZomayaAY.EnergyConsciousSchedulingforDistributedComputingSystemsUnderDifferentOperatingConditions[J].IEEETransactionsonParallelandDistributedSystems,2011,22(8):13744381. 17]HeSJ,GuoL,GuoYK,etal.ElasticApplicationContainer:ALightweightApproachforCloudResourceProvisioning[C]//ProceedingsofIEEEAINA'12.WashingtonD.C./USA:IEEEPress,2012:15-22. 18]KuehnhausenM,FrostVS,MindenGJ.FrameworkforAssessingtheTrustworthinessofCloudResources[C]//ProceedingsofIEEECogSIMA'12.WashingtonD.C.,USA:IEEEPress,2012:142-145. |
核心期刊网(www.hexinqk.com)秉承“诚以为基,信以为本”的宗旨,为广大学者老师提供投稿辅导、写作指导、核心期刊推荐等服务。 核心期刊网专业期刊发表机构,为学术研究工作者解决北大核心、CSSCI核心、统计源核心、EI核心等投稿辅导咨询与写作指导的问题。 投稿辅导咨询电话:18915033935 投稿辅导客服QQ: 投稿辅导投稿邮箱:1003158336@qq.com |