高宇飞
- 作品数:2 被引量:5H指数:1
- 供职机构:郑州大学信息工程学院更多>>
- 发文基金:河南省教育厅科学技术研究重点项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于预散列和索引的MapReduce数据连接处理优化
- 2015年
- 针对现有MapReduce在大规模集群上进行海量数据连接处理操作时的效率问题,提出一种基于预散列和索引技术的M apReduce数据连接处理机制.该机制对M ap结果数据先进行预散列处理,建立对应对的索引信息,然后根据索引信息计算相同key值数据的连接及处理复杂度,最后基于连接复杂度为Reducer节点分配任务数据量,实现负载均衡.实验结果显示,本文提出的MapReduce数据连接处理机制能够有效实现Reducer节点负载均衡,提高数据连接处理操作的效率.
- 刘嘉高宇飞吴保东陶永才
- 关键词:云计算数据连接索引散列HADOOP
- MapReduce计算模型下基于虚拟分区的数据倾斜处理方法被引量:5
- 2015年
- 针对MapReduce计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling).HVBR-SH在Map阶段采用虚拟分区,使得键值对分散存储,为后续重分区提供更优分区组合;在Reduce阶段,HVBR-SH利用连续虚拟分区平衡重组的方法将收集到的虚拟分区重新划分成与Reduce任务数相同分区,并确保重分区后最大分区的数据量最小,加快整个Reduce阶段的执行速度.对比实验结果表明,HVBR-SH算法能有效平衡各个Reduce任务的输入规模并控制运行时间,有效改善了Reduce输入倾斜问题,提高了M apReduce任务的执行效率.
- 高宇飞曹仰杰陶永才石磊
- 关键词:MAPREDUCE