王智 作品数:7 被引量:57 H指数:4 供职机构: 东北大学软件学院 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种改进的数据库Sharding方法 2017年 Sharding是用于开源数据库的一种水平扩展解决方案,包含两个主要步骤:逻辑划分和物理映射.对于前者,现有机制通常根据Shard Key采取基于Range或是Hash的方式来实现.然而,基于Range的方法不能够保证数据值域的均衡;基于Hash的方法不适用于范围查询,且当Shard Key不均匀时无法保证数据量的均衡.对于后者,现有机制通常采用一致性哈希来确保存储节点的动态扩展,然而该方法并未考虑数据增减导致Chunk大小变化时的数据均衡机制.为此,提出一种新的负载均衡的Sharding方法:一方面综合考虑上述两种划分方式的优缺点提出一种新的逻辑划分方法,另一方面给出一种Chunk大小变化而导致的不均衡处理机制.实验证明本文提出的方法能够有效保证数据的负载均衡. 李甜甜 于戈 王智 宋杰关键词:负载均衡 大数据分析的分布式MOLAP技术 被引量:34 2014年 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能. 宋杰 郭朝鹏 王智 张一川 于戈 Jean-Marc PIERSON关键词:大数据 多维数据模型 OLAP MAPREDUCE HaoLap:基于Hadoop的海量数据OLAP系统 被引量:5 2013年 近年来,随着计算机技术的发展及其在互联网、传感器和科学数据分析等领域的广泛应用,数据量爆炸性地增长,海量数据给传统的数据管理和分析带来新的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.介绍了HaoLap(Hadoop based OLAP),一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的海量数据OLAP系统.本研究吸取了MOLAP的经验:采用元数据存储多维模型以及HDFS存储事实数据,采用编码完成维和事实数据的映射,采用MapReduce完成OLAP运算.描述了HaoLap的关键技术,包括系统结构、维定义和编码、事实数据存储和编码、OLAP算法和服务接口.介绍了HaoLap在科学数据分析的应用案例,并与主流非关系数据管理系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但HaoLap的OLAP性能要优于HBase,Hive,HadoopDB等主流非关系数据管理系统. 郭朝鹏 王智 韩峰 张一川 宋杰关键词:多维数据模型 OLAP 海量数据 HDFS MAPREDUCE 大数据存储系统中负载均衡的数据迁移算法 被引量:3 2016年 认为在大数据时代,数据迁移已成为以数据为中心的挖掘分析操作的基础环节。通过对大数据存储系统中的数据迁移进行需求分析,首先提出了数据迁移模型,并分析了影响迁移性能的因素;然后基于上述模型,从作业层面提出一种负载均衡的数据迁移算法。该算法能够规避数据访问热点,提高数据迁移效率。 李甜甜 王智 宋杰关键词:大数据 数据迁移 负载均衡 一种优化MapReduce系统能耗的数据布局算法 被引量:8 2015年 在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗优化方法多采用负载集中和节点开关算法,但由于MapReduce任务的特点,集群节点不仅要完成运算,还需要存储数据,因此,传统方法难以应用到MapReduce集群.提出了良好的数据布局可以优化集群能耗.基于此,首先定义了数据布局的能耗优化目标,并提出相应的数据布局算法;接着,从理论上证明该算法能够实现数据布局的能耗优化目标;最后,在异构集群中部署3种数据布局不同的MapReduce系统,通过对比三者在执行CPU密集型、I/O密集型和交互型这3种典型运算时的集群能耗,验证了所提出的数据布局算法的能耗优化效果.理论和实验结果均表明,所提出的布局算法能够有效地降低MapReduce集群的能耗.上述工作都将促进高能耗计算和大数据分析的应用. 宋杰 王智 李甜甜 于戈关键词:能耗优化 MAPREDUCE 大数据 HaoLap:基于Hadoop的海量数据OLAP系统 近年来,随着计算机技术的发展及其在互联网、传感器和科学数据分析等领域的广泛应用,数据量爆炸性地增长,海量数据给传统的数据管理和分析带来新的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对速一挑战.... 郭朝鹏 王智 韩峰 张一川 宋杰关键词:海量数据 联机分析处理系统 结构特征 文献传递 云计算环境下改进的能效度量模型 被引量:9 2013年 针对大规模计算的能效问题,提出改进的能效度量模型,通过"能源"和"效率"2种度量来综合评价系统能效.在"能源"方面,考虑计算机、网络和附属设备的能耗;在"效率"方面,考虑CPU、内存、磁盘以及网络的情况.提出的能效度量模型描述了改进后的能效度量的定义和数学表达,通过实验验证了该模型的合理性.基于该度量模型,评估并分析了MapReduce环境中CPU密集型、I/O密集型和交互型计算的能效,总结了MapReduce环境中的能效规律. 宋杰 侯泓颖 王智 朱志良关键词:云计算 能效 MAPREDUCE