公共文化服务平台

郝子宇: 作品数：86 被引量：24H指数：2; 供职机构：江南计算技术研究所更多>>; 发文基金：国家科技重大专项国家重点实验室开放基金国家自然科学基金更多>>; 相关领域：自动化与计算机技术电子电信理学更多>>

合作作者

3D-ACC:基于3D集成电路的卷积神经网络加速结构研究被引量：2: 2020年; 在深亚微米工艺下,通过持续增大芯片规模来提升计算能力,会导致芯片工作频率降低、功耗剧增、计算效率下降等问题。因此,利用3D集成电路技术,提出并量化研究了一种将二维脉动阵列映射到3D集成电路上的卷积神经网络加速器3D-ACC,并设计了一种高效的卷积映射计算方法,构建了其性能模型,量化分析了不同设计参数对3D-ACC性能和效率的影响。实验结果表明,当采用四层64×64脉动阵列的堆叠结构时,3D-ACC的峰值计算性能达32 TFLOPS,测试VGG-16、ResNet-50以及Inception V3模型时的实际计算效率可达47.4%、37.9%及40.9%。与相同计算单元规模的二维加速器2D-ACC相比,3D-ACC的计算效率及性能优势明显,实际计算性能分别是后者的1.51、1.69以及1.61倍。探索了3D集成电路在神经网络加速器设计的优势,对进一步提升神经网络加速器性能具有一定参考价值。; 王吉军郝子宇李宏亮; 关键词：脉动阵列

一种基于空间坐标的集群网络自动配置及管理方法: 本发明提供了一种基于空间坐标的集群网络自动配置及管理方法。将各个节点组卡的控制接口以硬连线方式进行连接，以形成集群网络；通过采用固定编码格式的位置信息编码进行层次的网络地址配置，其中位置信息编码长度是由集群网络中的节点的...; 郝子宇谢向辉吴东原昊钱磊臧春峰李玺朱桂明

一种支持融合算子生成的快速代码生成装置: 一种支持融合算子生成的快速代码生成装置，属于深度学习技术领域。本发明包括：LDM区域划分模块，用于根据上层框架输入的网络尺寸参数，对本地的存储空间进行功能分区；融合算子地址配置模块，用于根据上层框架输入的融合算子类型，定...; 王迪王吉军谭弘兵张昆郝子宇

一种支持数据在线重组的DMA访存方法及装置: 本发明公开了一种支持数据在线重组的DMA访存方法及装置，涉及数据处理技术领域，包括：DMA引擎收到DMA传输指令时，判断DMA传输指令中是否有数据重组指示，若是则获取数据传输方向以及数据重组参数信息；DMA引擎将收到的D...; 张清波施晶晶刘骁唐勇杨萱郝子宇

多核处理器的数据管理方法及装置: 一种多核处理器的数据管理方法及装置，所述多核处理器包括处理器核心阵列和处理器核心互连结构，所述处理器核心阵列包括多个处理器核心，所述处理器核心包括具有多个存储单元的核内存储器，所述处理器核心互连结构用于所述处理器核心阵列...; 李宏亮郑方谢向辉郝子宇胡苏太唐勇

大型计算系统模拟器分析: 大型计算系统的快速发展，对其设计方案的筛选和性能评测更加需要模拟器的支持，而当前针对大型计算系统的模拟器却很少。本文针对大型计算系统模拟器--Bigsim、PARSIM、Parallel BG/L Simulator和B...; 郝子宇钱磊李宏亮谢向辉; 关键词：模拟器系统设计性能评测

一种面向AI浮点融合运算单元的验证激励产生方法: 本发明公开了一种面向AI浮点融合运算单元的验证激励产生方法，该方法包括：针对新型AI浮点融合运算单元进行分析，获取输入操作数数量、输入操作数数据格式、输入操作数数据类型并构建相应参数模型；结合参数模型构造输入操作数之间的...; 刘鹏胡文超郝子宇韩晓霞夏冰洁王文李宏亮王芬

一种高效的处理器数据加载装置及方法: 本发明涉及计算机体系结构与处理器微结构技术领域，具体为一种高效的处理器数据加载装置及方法。一种高效的处理器数据加载装置，包括组包模块，用于接收扫入数据并将扫入数据组成IO写请求包；请求发送模块，用于将IO写请求包中的IO...; 赵冠一施晶晶吴铁彬郝子宇王之辰谭弘兵陈正博

卷积神经网络训练访存优化被引量：3: 2020年; 虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用“计算换访存”思想,提出融合“卷积层+批归一化层+激活层”结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型。实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33%,22%及31%,V100的实际计算效率分别提升了20.5%,18.5%以及18.1%。这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量。; 王吉军郝子宇李宏亮

一种用于脉动阵列的数据调度方法: 一种用于脉动阵列的数据调度方法，属于神经网络技术领域。本发明包括：步骤1，令待卷积/待矩阵乘的数据A分布在m个核心上；步骤2，将数据B广播给m个核心，m个核心每轮得到相同的b进行计算；步骤3，当每个核心上的分布式数据A与...; 谭弘兵王迪王吉军张昆郝子宇李宏亮