顾荣
- 作品数:4 被引量:43H指数:2
- 供职机构:计算机软件新技术国家重点实验室更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- Hadoop MapReduce短作业执行性能优化被引量:28
- 2014年
- Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%.
- 顾荣严金双杨晓亮袁春风黄宜华
- 关键词:MAPREDUCE并行计算
- 国际开源发展经验及其对我国开源创新体系建设的启示被引量:15
- 2021年
- 开源已成为全球科技进步至关重要的创新渠道。开源创新体系建设是我国实现科技自立自强的重要途径。中国作为全球软件价值链和高新技术产业链必不可少的一环,需要更完善的开源创新生态。文章在系统梳理欧美先发国家开源发展经验的基础上,立足我国开源生态建设面临的实际问题,提出促进我国开源创新体系建设的政策建议。
- 隆云滔王晓明顾荣顾荣
- 基于布尔矩阵分解的RDF数据存储布局及查询优化方法
- 语义网上RDF数据的爆炸性增长,人们迫切需要可以高效存储和查询RDF数据的SPARQL执行引擎;与此同时,传统关系数据库经过数十年的研究发展,各项技术趋于完善,可以为SPARQL执行引擎的构建提供基础支撑.由于RDF数据...
- 倪传蕾胡伟顾荣柏文阳
- 关键词:数据存储查询算法
- 学习型过滤器综述
- 2024年
- 作为一种高效的概率性结构,过滤器可以高效地解决近似集合成员查询问题。近年来,随着机器学习技术的发展,一些学习型过滤器表现出色,超越了传统的过滤器。这些学习型过滤器考虑数据分布信息,将集合成员查询问题视为二分类问题,实现了超越传统过滤器的性能。受此启发,学习型过滤器研究领域迅速发展,出现了多个变种。然而,目前还缺乏对近些年相关工作的系统性回顾和比较。为了填补上述空缺,文中全面回顾了近年来的学习型过滤器相关工作,并展望了未来的发展方向。
- 李猛戴海鹏眭永熙顾荣陈贵海
- 关键词:BLOOM过滤器