安明远
- 作品数:4 被引量:7H指数:1
- 供职机构:中国科学院研究生院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 大规模数据密集型系统中的去重查询优化被引量:6
- 2010年
- 针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据写入时保证数据均衡,并在数据量发生倾斜时自动调整数据的分布;后者充分发掘了去重查询处理中的粗粒度流水级并行,并消除了多节点同步等待的开销,尽早地返回结果.在生产系统DBroker上的测试表明,数据分布策略极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发掘并行性,对不相关属性的去重查询具有显著的性能提升.
- 宋怀明安明远王洋袁春阳孙凝晖
- 关键词:数据划分
- 动态分片在线聚集
- 2010年
- 传统的在线聚集方法为了避免执行中随机I/O导致的性能下降,假设数据本身近似随机分布于数据文件中,用顺序I/O来代替随机I/O.数据随机分布于数据文件的假设在很多实际的应用场景中是难以成立的,从而导致查询结果产生很大误差.提出了动态数据分片在线聚集算法DDPOA(dynamicdata-partitioned online aggregation),将整个数据集分片,对各个子数据集独立计算,线性组合子集结果进而得到全集最终结果,一方面降低了在线聚集对整体数据集随机分布的要求,提高了准确性,另一方面动态调整分片数量以改善I/O性能,缩短完成时间.真实系统负载上的实验表明:DDPOA与传统在线聚集相比,在完成时间相差不大的情况下准确性有了大幅提高.
- 安明远孙秀明孙凝晖
- 关键词:数据库近似查询采样
- 层次凝聚聚类算法的动态分析与准则函数设计被引量:1
- 2012年
- 为提高层次凝聚聚类(HAC)算法的执行效率和结果质量,对其进行了动态分析,研究了一次合并对后续合并的影响。分析表明,合并两个类会生成一个新类,并使被合并的类的共享邻居的邻居数减小1;当新生成的类或邻居数减小的类参与后续合并时,会影响执行效率;一次合并会改变参与合并的类和它们的候选邻居之间的准则函数值,从而影响后续合并提高质量的程度。基于上述分析并结合模块性的定义,研究了现有准则函数对凝聚过程的影响以及它们的缺陷,并设计了两个新的准则函数。在大量数据集上的买验表明,新的准则函数提高了层次凝聚聚类算法的执行效率和结果质量。
- 王洋涂登彪安明远孙凝晖王伟平
- 关键词:准则函数模块性聚类分析
- 大规模数据密集型系统中的去重查询优化
- 在大规模数据密集型系统中,海量数据分布存储在多节点,给去重查询提出了新的挑战。本文针对去重查询中可能出现的不同情况,提出了一种有效地数据分布策略和并行处理方法:即散列和直方图相结合的数据分布策略,以及异步式并行查询引擎,...
- 宋怀明安明远王洋袁春阳孙凝晖
- 关键词:数据挖掘信息检索
- 文献传递