公共文化服务平台

基于Pthreads的并行DSRC压缩算法设计与实现: 2015年; 高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthreads,实现了并行DSRC算法。测试结果表明,当使用4线程时加速比达到3.5。; 詹科张云泉王婷郑晶晶张鹏; 关键词：数据压缩 DSRC

SPM结构上冗余读延迟写优化的设计与实现: 2015年; 随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者由编译器进行高效的自动访存优化。冗余读延迟写优化从循环中多个主存访问之间的关联性出发,自动进行了数据传送和缓存优化,提高了SPM上的数据重用率。经过测试,可以有效提升程序性能。; 文延华冯冬明尉红梅; 关键词：SPM 数据重用

基于数据对齐属性指导的GCC自动向量化优化: 2014年; 主流通用处理器都已经实现了多核并行以及处理器核内的SIMD并行。虽然GCC编译器实现了面向SIMD并行的自动向量化,但是编译器针对OpenMP并行程序的自动向量化效果仍很不理想。针对多线程并行的OpenMP程序,基于GCC的OpenMP编译实现,扩展了数据对齐属性指导语句,使编译器在自动向量化时能够进行更准确的数据对齐与否的判断,优化了GCC编译器的自动向量化。; 李春江黄娟娟徐颖董钰山; 关键词：自动向量化 GCC

GCC中紧嵌套循环坍缩的并行化和向量化: OpenMP 3.0规范中的collapse从句能指导编译器进行紧嵌套循环的并行化.最新OpenMP4.0规范中新增了用于指导循环向量化的simd结构,它也支持collapse从句,指导编译器进行紧嵌套循环的向量化.当前...; 徐颖李春江董钰山; 关键词：并行化向量化

OpenCL的动态执行模式在静态编译支持下的实现被引量：1: 2014年; OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境下实现OpenCL的动态执行模式。; 文延华何王全尉红梅; 关键词：执行流

针对小规模整数的MPQS算法: 2015年; 数域筛法是目前最有效的大整数分解算法,其中候选关系的光滑性判断需要对大量规模不大的余因子做分解,MPQS作为110-digits以下最快的分解算法得到广泛的应用。但现有的MPQS软件包针对96 bit以下的整数优化不足,未充分挖掘整数规模对MPQS性能的影响。针对小规模整数的MPQS算法提出新多项式系数选取和循环拷贝筛两种优化方法,新的系数方案配合参数选取和中间结果规模控制可以尽量避免使用多精度函数;循环拷贝筛法根据筛法定理与周期函数的周期性,利用循环拷贝替代小素因子的筛法,解决了小素因子筛法成本过高和部分因子基筛法筛选效果差的问题。在神威蓝光国产CPU平台上进行的实验测试表明,两种优化方法可使MPQS性能提高30%以上。; 袁欣辉漆锋滨; 关键词：筛法多项式系数神威

X:E级系统结点内编程模型研究: 2013年; 基于对E级系统特征的分析和对混合编程模型编程经验的总结,提出了对E级系统结点内编程模型的七项需求.对照七项需求分析了现有编程模型的优点和不足.分析可知:对E级系统的结点内编程模型的研究应该在保证编程模型简单性的前提下,有针对性地解决当前编程模型在性能可扩展性、模型层次性和模型异构性的不足.; 易会战杜云飞王锋杨灿群; 关键词：编程模型异构计算 OPENMP

GPGPU性能模型研究被引量：1: 2013年; GPGPU的发展为并行程序带来了丰富的计算资源,但是对程序优化提出了更高的要求。程序性能模型对定位程序性能瓶颈,指导优化方法,平衡与其他设备的负载等方面起着重要作用。描述了当前性能模型的研究现状,并对其进行分类和分析。总体上性能模型分为基于统计方法的性能模型和性能解析模型,性能解析模型又分为性能度量模型、计算和访存并行性感知的模型和分部件定量分析性能模型。每种模型都给出了优缺点,并且实现了一个基于统计信息的插值性能模型,用于指导负载平衡。最后对存在的问题和未来的挑战进行了阐述。; 王锋杜云飞陈娟; 关键词：GPGPU GPU

Xeon Phi平台上基于模板优化的3D GVF场计算加速被引量：1: 2014年; 3D梯度向量流场(3DGVF field)广泛应用于多种3D图像分析算法中,其计算需要多次迭代,计算量大,如何提高其计算速度具有重要的研究意义。面向Intel Xeon Phi众核集成架构,首次进行了3DGVF场计算的加速优化。首先,挖掘3D图像像素点间存在的天然并行性,发挥众核架构优势,尝试线程级并行(多核)和数据级并行(SIMD)。其次,3DGVF场的计算过程是一种典型的3D-7点模板运算,结合Xeon Phi架构的L2缓存规格,提出一种高效的数据分块策略,充分挖掘数据的时/空局部性,有效缓解模板计算引起的缓存缺失,提升了计算性能。实验结果表明,引入模板优化技术能显著提升3D GVF场的计算速度,在图像维度为5123时,所提方法在57核Xeon Phi平台上的性能相比在2.6GHz 8核16线程的Intel Xeon E5-2670CPU上的性能,加速比可达2.77。; 齐金李宽杨灿群杜云飞; 关键词：XEON PHI

GCC编译器中编译指导的自动向量化实现被引量：2: 2014年; 基于编译指导的自动向量化已经成为编译器开发SIMD体系结构性能潜力的必然选择。OpenMP 4.0规范新增了SIMD编译指导语句,在开发中的GCC 4.9版本已经开始着手支持OpenMP4.0规范。详细分析了SIMD编译指导在GCC 4.9中的实现情况,重点分析了SIMD编译指导在编译器自动向量化阶段的影响,这为改进GCC的现有实现和提高向量化能力提供了有价值的参考。; 徐颖李春江董钰山周思齐; 关键词：GCC SIMD 自动向量化

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家高技术研究发展计划(2012AA010903)