国家自然科学基金(60736012) 作品数:43 被引量:146 H指数:7 相关作者: 范东睿 宋风龙 樊晓桠 黄小平 张浩 更多>> 相关机构: 中国科学院 中国科学院研究生院 西北工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
一种基于RAM的降低异构多核切换开销的方法 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时... 刘奇 郝守青 沈海华 章隆兵关键词:寄存器重命名 文献传递 支持短向量的32位快速加法器设计 2010年 研究和设计了一种面向多媒体应用的32位短向量快速加法器,该加法器以SK型并行前缀加法器为基础,通过有效控制进位链,实现了同时执行4个基于字节的加法,或者2个基于半字的加法,或者1个基于字的加法,或者1个基于单精度浮点数的比较运算.综合结果表明,此设计方法同传统的设计方法相比,电路面积接近,时序提高了10%,总体性能较优. 刘学政 张盛兵 黄小平关键词:加法器 进位链 众核处理器片上同步机制和评估方法研究 被引量:11 2010年 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 徐卫志 宋风龙 刘志勇 范东睿 余磊 张帅关键词:硬件支持 微程序 Design and analysis of a UWB low-noise amplifier in the 0.18μm CMOS process 2009年 An ultra-wideband (3.1-10.6 GHz) low-noise amplifier using the 0.18μm CMOS process is presented. It employs a wideband filter for impedance matching. The current-reused technique is adopted to lower the power consumption. The noise contributions of the second-order and third-order Chebyshev fliers for input matching are analyzed and compared in detail. The measured power gain is 12.4-14.5 dB within the bandwidth. NF ranged from 4.2 to 5.4 dB in 3.1-10.6 GHz. Good input matching is achieved over the entire bandwidth. The test chip consumes 9 mW (without output buffer for measurement) with a 1.8 V power supply and occupies 0.88 mm^2. 杨袆 高茁 杨丽琼 黄令仪 胡伟武关键词:ULTRA-WIDEBAND CMOS 提高堆数据局部性的动态池分配技术 被引量:4 2011年 动态内存分配在现代程序中被广泛使用.通用的内存分配器通常关注于降低运行时开销和内存利用率,而在发掘所分配对象之间的特性方面有所欠缺.文中展示了一个低开销的动态优化技术"动态池分配".它在运行时构造存储形状图,从中发掘动态分配对象之间的亲缘性,把具有亲缘性的对象聚集到一段内存区域(称为内存池)里,改善了它们的数据布局.作者在实际机器上实现了动态池分配原型系统,并在GCC--O3编译的一些大量使用堆数据的SPEC 2000和2006程序上进行了测试.原型系统在两台实际机器上获得了13.1%和11.8%的平均加速比,对一些程序的加速高达82.2%.此外,作者还研究了CPU的高速缓存大小对池分配效果的影响. 王振江 武成岗 张兆庆关键词:动态优化 龙芯处理器上的TLB性能优化技术 TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯... 张晓辉 程归鹏 从明关键词:龙芯处理器 TLB 文献传递 存储器模块测试系统的设计 被引量:2 2012年 存储器模块上集成有多种类型的存储器,整个模块提供一致的总线访问接口;对存储器模块进行完整的测试是很有必要的,在分析存储器模块的故障模型和测试原理的基础上,给出了一种基于数字波形发生器的存储器模块测试设备结构,通过对March算法进行扩展,设计了一种适合对存储器模块进行测试的算法结构;系统提高了测试的故障覆盖率和效率,在应用中取得了较好的效果。 杨升 高德远 杨丽君 余云关键词:存储器模块 测试系统 数字波形发生器 支持多核并行程序确定性重放的高效访存冲突记录方法 被引量:5 2012年 多核系统中并行程序执行过程的不确定性给程序调试带来了很大的困难.准确记录初始执行中冲突访存的次序是并行程序确定性重放的基础.提出了通过建立精确happens-before关系记录访存冲突的方法.此方法利用简洁高效的地址冲突检测机制确定冲突访存操作在执行中所处happens-before序关系的位置,可以抑制部分记录信息的产生,从而有效减少记录信息.与其他方式方法相比,可以进一步压缩17%的记录条数.采用逻辑向量时钟描述冲突访存操作间的happens-before关系,与采用标量时钟相比,可以避免happens-before关系的误识,降低重放执行时并行度的损失. 刘磊 黄河 唐志敏关键词:多核 指导cache静态划分的程序性能profiling优化技术 被引量:3 2012年 对于共享cache的多核处理器,如何管理好各个核对cache的利用,对于充分发挥多核处理器性能是很关键的问题.目前采用的cache替换方法程序间会出现性能干扰,cache静态划分技术则是通过为同时运行的程序分配不同的空间来解决性能干扰问题.为了给程序分配合适大小的cache空间,需要对程序进行性能profiling,即事先多遍运行收集程序在各种cache容量下的性能数据,这种性能profiling方法开销巨大,影响实用.为了解决性能profiling需要多遍运行程序的问题,提出了只需单遍运行的程序性能profiling优化技术.该技术利用在线的phase分析技术识别程序的运行阶段,避免对相同阶段的重复profiling;同时分析程序各phase的性能同cache容量变化的关系趋势,对于性能不敏感的容量变化则不进行profiling,降低开销.在程序运行结束后通过程序各phase在cache各种容量下的性能来估计程序在各容量下的整体性能,以指导cache静态划分.实验表明,该技术的开销仅为7%,而该方法指导的cache划分比未划分时有8%的性能改进,同多遍运行的程序性能profiling指导的cache划分性能相比仅有1%的下降. 贾耀仓 武成岗 张兆庆关键词:多核 CACHE划分 面向应用的流存储系统评测与改进 2010年 有限的片外存储带宽是制约流处理器性能提升的瓶颈之一,流存储系统已经采用了多种方式来缓解这个问题,但当前的设计并没有充分考虑应用具体的访存模式对有效带宽利用率的影响.通过分析和实验,评估流存储系统主要设计参数对不同访存模式的优化效果;在此基础上针对不同的流访问并行度提出了相应的结构改进,加入宽发射和短作业优先调度支持,充分挖掘存储访问的局部性和并行性,改善了负载平衡,从而有效地提高了片外带宽的使用效率和流程序的整体性能. 汪芳 安虹 徐光 许牧 姚平关键词:DRAM