搜索到590篇“ 统一计算架构“的相关文章
- 统一计算架构下的装配精度并行计算模型
- 2023年
- 针对复杂装配体在多指标需求下装配精度计算效率低下的问题,提出了一种基于统一计算架构(CUDA)的多误差传递路径装配精度并行计算模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作为误差传递单元,通过构建姿态变换和误差传递模型,分解误差传递过程,为后续并行计算提供支持;然后,对多功能需求(FR)误差传递路径按类型特征进行路径合并和误差旋量复用,减少计算量和数据生成量;最后,设计算法数据结构,根据任务需求分配线程任务、合理分配内存及降低访存时延。采用该模型对某型航发高压压气机转子的装配精度进行仿真计算,结果表明:与传统CPU模型相比,所提模型的装配精度计算速度提高了约97.3倍,能够为复杂装配体的装配精度计算和公差设计提供支持。
- 苏裕林刘浩苏琦贾康贾康
- 关键词:公差设计统一计算架构并行计算
- 基于统一计算架构的人体受照剂量实时仿真评估方法
- 2015年
- 基于统一计算架构(Compute unified device architecture,CUDA),利用GPU的流多处理器和共享显存实现了辐射环境中人体体素级受照剂量的并行计算。通过加速器驱动次临界系统散裂靶质子束窗的维修更换仿真例题的测试,百万量级体素人体受照剂量计算时间降低到10 ms的量级,能够保持与实时维修仿真同步。该方法能够满足维修仿真对维修人员的器官当量剂量和人体有效剂量计算的实时性要求,可应用到维修方案的实时仿真推演,对提高维修方案的设计与验证效率,辅助优化方案和保障人员辐射安全具有重要意义。
- 杨子辉王静何桃宋婧龙鹏程
- 关键词:并行计算统一计算架构实时仿真
- 基于边光滑三角形壳元和统一计算架构的板料成形仿真并行计算方法被引量:5
- 2012年
- 针对板料成形过程仿真中计算效率低以及四边形单元几何逼近性差的问题,提出一种基于边光滑三角形壳元(Edge-based smoothed triangular shell element,EST)和图形处理器(Graphics processing unit,GPU)的板料成形并行计算方法。根据EST壳元及板料成形过程显式求解的特点,该方法采用将最小计算单位与线程一一对应的方式进行数组的求解,同时,采用并行缩减的方法进行单值的求解,实现了整个计算过程的细粒度并行。考虑到GPU并行计算系统的特点,采用由CPU进行主控,由GPU进行数值求解的程序架构,并以统一计算架构(Compute unified device architecture,CUDA)作为GPU编程环境,编制相应的程序。通过算例表明,与传统CPU串行计算方法相比,在计算精度一致的情况下,当计算模型单元数超过20 000个时,基于GPU的并行计算方法可以获得35倍以上的计算加速比,显著减少板料成形仿真的计算时间。
- 蔡勇王琥李光耀崔向阳郑刚
- 关键词:板料成形并行计算图形处理器
- 基于GPU统一计算架构平台的实时阴影算法研究
- 近年来,计算机图形学有了巨大的发展,随着应用需求的不断增加,人们对真实感图形渲染的需求也与日俱增,其中阴影生成是不可或缺的重要方面。随着GPU处理能力不断增强,原来由CPU处理的大部分数据现在可以由GPU处理。但是,GP...
- 马晨
- 关键词:图形处理器软阴影真实感线性映射
- 文献传递
- 汇聚网络和服务器统一计算架构的网络流处理器
- 2009年
- NFP32xx系列网络流处理器采用65nm技术,由40个支持硬件多线程的可编程内核组成,运行频率达到1.4GHZ。320个硬件线程优化了存储器访问效率,可以提供每秒560亿次指令运算能力,如果以每秒处理3000万个数据包计算,将有1800条指令负责处理每一个数据包。
- 关键词:网络流处理器服务器架构汇聚
- 统一计算架构NPU支持深度包检测
- 2009年
- Netronome系统有限公司日前推出NFP32xx系列网络处理器(NPU)。这款采用65nm技术的处理器集成了多个高性能网络和安全处理内核,同时支持I/O虚拟化,是汇聚了网络和服务器统一计算架构的商用芯片。
- 刘洋
- 关键词:虚拟化NETRONOMEINTEL
- 协同CPU和GPU的核密度估计及其可视化算法
- 2024年
- 大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行计算能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的计算和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。
- 胡森高苏蔡忠亮
- 关键词:核密度估计可视化GPUOPENGL统一计算架构
- 松耦合组件式GPU生态迁移适配系统研究
- 2023年
- 在英伟达GPU芯片进口受限的大环境下,AI-GPU算力芯片及其他算力芯片的国产化替代,是当前我国AI产业发展的必经之路。虽然当前国内各大厂商都推出了各具特色的GPU芯片,但英伟达公司在长期发展过程中构建了除算力芯片外的CUDA(Compute Unified Device Architecture,统一计算架构)软件生态,这也构成了英伟达GPU芯片的核心竞争力。
- 邓玲
- 关键词:统一计算架构GPU组件式松耦合核心竞争力AI
- GRAPES动力框架中大规模稀疏线性系统并行求解及优化被引量:2
- 2022年
- 赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。
- 张琨贾金芳严文昕黄建强王晓英
- 关键词:统一计算架构
- 基于CUDA的SKINNY加密算法并行实现与分析被引量:1
- 2021年
- 针对SKINNY加密算法在中央处理器(CPU)下实现效率偏低的问题,提出一种基于图形处理器(GPU)的快速实现方法。首先,结合SKINNY算法的结构特征提出优化方案,将5个分步操作优化整合为1个整体运算;然后,分析该算法的电子密码本(ECB)模式和计数器(CTR)模式的特性,并给出并行粒度、内存分配等并行设计方案。实验结果表明,与传统的CPU实现方法下的SKINNY算法相比,基于计算统一设备架构(CUDA)实现的SKINNY算法的效率和吞吐量得到很大提升。具体来说,当处理的数据达到16 MB及以上时,在所提实现方法下,SKINNY算法的ECB模式的加速效率提升峰值为99.85%,加速比峰值为671,CTR模式的加速效率提升峰值为99.87%,加速比峰值为765;而与已有AES-256(ECB)和SKINNY_ECB并行算法比较,新提出的SKINNY-256(ECB)并行算法的吞吐量分别是它们的吞吐量的1.29倍和2.55倍。
- 解文博韦永壮刘争红
- 关键词:并行计算统一计算架构图形处理器
相关作者
- 桂叶晨

- 作品数:4被引量:0H指数:0
- 供职机构:中国科学院深圳先进技术研究院
- 研究主题:图形处理单元 统一计算架构 GPU 并行计算 二叉树模型
- 文高进

- 作品数:21被引量:49H指数:3
- 供职机构:中国科学院深圳先进技术研究院
- 研究主题:遗传算法 调度方法 图形处理单元 统一计算架构 数据中心
- 彭蓉

- 作品数:4被引量:0H指数:0
- 供职机构:中国科学院深圳先进技术研究院
- 研究主题:图形处理单元 统一计算架构 GPU 并行计算 二叉树模型
- 陈庆奎

- 作品数:279被引量:593H指数:11
- 供职机构:上海理工大学光电信息与计算机工程学院
- 研究主题:GPU集群 数据流 并行通信 CUDA GPU
- 李熙铭

- 作品数:22被引量:47H指数:4
- 供职机构:吉林大学
- 研究主题:GPU 图形处理器 统一计算架构 模糊推理系统 文本聚类