郝子宇 作品数:86 被引量:23 H指数:2 供职机构: 江南计算技术研究所 更多>> 发文基金: 国家科技重大专项 国家重点实验室开放基金 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 理学 更多>>
3D-ACC:基于3D集成电路的卷积神经网络加速结构研究 被引量:1 2020年 在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计了一种高效的卷积映射计算方法,构建了其性能模型,量化分析了不同设计参数对3D-ACC性能和效率的影响。实验结果表明,当采用四层64×64脉动阵列的堆叠结构时,3D-ACC的峰值计算性能达32 TFLOPS,测试VGG-16、ResNet-50以及Inception V3模型时的实际计算效率可达47.4%、37.9%及40.9%。与相同计算单元规模的二维加速器2D-ACC相比,3D-ACC的计算效率及性能优势明显,实际计算性能分别是后者的1.51、1.69以及1.61倍。探索了3D集成电路在神经网络加速器设计的优势,对进一步提升神经网络加速器性能具有一定参考价值。 王吉军 郝子宇 李宏亮关键词:脉动阵列 一种基于空间坐标的集群网络自动配置及管理方法 本发明提供了一种基于空间坐标的集群网络自动配置及管理方法。将各个节点组卡的控制接口以硬连线方式进行连接,以形成集群网络;通过采用固定编码格式的位置信息编码进行层次的网络地址配置,其中位置信息编码长度是由集群网络中的节点的... 郝子宇 谢向辉 吴东 原昊 钱磊 臧春峰 李玺 朱桂明一种支持融合算子生成的快速代码生成装置 一种支持融合算子生成的快速代码生成装置,属于深度学习技术领域。本发明包括:LDM区域划分模块,用于根据上层框架输入的网络尺寸参数,对本地的存储空间进行功能分区;融合算子地址配置模块,用于根据上层框架输入的融合算子类型,定... 王迪 王吉军 谭弘兵 张昆 郝子宇一种支持数据在线重组的DMA访存方法及装置 本发明公开了一种支持数据在线重组的DMA访存方法及装置,涉及数据处理技术领域,包括:DMA引擎收到DMA传输指令时,判断DMA传输指令中是否有数据重组指示,若是则获取数据传输方向以及数据重组参数信息;DMA引擎将收到的D... 张清波 施晶晶 刘骁 唐勇 杨萱 郝子宇多核处理器的数据管理方法及装置 一种多核处理器的数据管理方法及装置,所述多核处理器包括处理器核心阵列和处理器核心互连结构,所述处理器核心阵列包括多个处理器核心,所述处理器核心包括具有多个存储单元的核内存储器,所述处理器核心互连结构用于所述处理器核心阵列... 李宏亮 郑方 谢向辉 郝子宇 胡苏太 唐勇大型计算系统模拟器分析 大型计算系统的快速发展,对其设计方案的筛选和性能评测更加需要模拟器的支持,而当前针对大型计算系统的模拟器却很少。本文针对大型计算系统模拟器--Bigsim、PARSIM、Parallel BG/L Simulator和B... 郝子宇 钱磊 李宏亮 谢向辉关键词:模拟器 系统设计 性能评测 一种面向AI浮点融合运算单元的验证激励产生方法 本发明公开了一种面向AI浮点融合运算单元的验证激励产生方法,该方法包括:针对新型AI浮点融合运算单元进行分析,获取输入操作数数量、输入操作数数据格式、输入操作数数据类型并构建相应参数模型;结合参数模型构造输入操作数之间的... 刘鹏 胡文超 郝子宇 韩晓霞 夏冰洁 王文 李宏亮 王芬一种高效的处理器数据加载装置及方法 本发明涉及计算机体系结构与处理器微结构技术领域,具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置,包括组包模块,用于接收扫入数据并将扫入数据组成IO写请求包;请求发送模块,用于将IO写请求包中的IO... 赵冠一 施晶晶 吴铁彬 郝子宇 王之辰 谭弘兵 陈正博卷积神经网络训练访存优化 被引量:3 2020年 虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用“计算换访存”思想,提出融合“卷积层+批归一化层+激活层”结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型。实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33%,22%及31%,V100的实际计算效率分别提升了20.5%,18.5%以及18.1%。这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量。 王吉军 郝子宇 李宏亮一种用于脉动阵列的数据调度方法 一种用于脉动阵列的数据调度方法,属于神经网络技术领域。本发明包括:步骤1,令待卷积/待矩阵乘的数据A分布在m个核心上;步骤2,将数据B广播给m个核心,m个核心每轮得到相同的b进行计算;步骤3,当每个核心上的分布式数据A与... 谭弘兵 王迪 王吉军 张昆 郝子宇 李宏亮