何玉林 作品数:25 被引量:30 H指数:2 供职机构: 深圳大学 更多>> 发文基金: 中国博士后科学基金 国家自然科学基金 深圳市基础研究计划项目 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
一种随机权网络泛化能力改进方法、装置和计算机可读存储介质 本发明公开了一种随机权网络泛化能力改进方法、装置和计算机可读存储介质,本发明的随机权网络泛化能力改进方法首先在伪残差数据集上解析地计算弱随机权网络的初始输出层权重,之后,设计了考虑当前集成学习模型损失和复杂度的目标函数,... 何玉林 敖威文献传递 大数据随机采样数据子块的划分方法及装置 本发明适用于大数据处理技术领域,提供了一种大数据随机采样数据子块的划分方法,包括:切割一个大数据块,得到P个原始数据子块;从P个中的每一个所述原始数据子块中随机取出若干条数据,并把从每一个所述原始数据子块中取出的若干条数... 黄哲学 何玉林 张晓亮 魏承昊 朱胡飞文献传递 大数据随机样本划分模型及相关分析计算技术 被引量:16 2019年 设计了一种新的适用于大数据的管理和分析模型大数据随机样本划分(Random samplepartition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势。 黄哲学 黄哲学 魏丞昊 何玉林关键词:大数据 人工智能 一种改进的可适应变宽核密度估计器 被引量:1 2019年 可适应变宽核密度估计器(kernel density estimator with adaptive varying bandwidth,KDE-AVB)是一种基于单个数据点的概率密度估计方法,它以单个数据点为处理对象,利用置信区间交叉法则确定核密度估计器的最优窗口宽度.为加快可适应变宽核密度估计器对最优窗口宽度的寻找,通过引入一种可变的标准差项因子去确定置信区间的上下边界,提出一种改进的可适应变宽核密度估计器(improved kernel density estimator with adaptive varying bandwidth,IKDE-AVB).可变标准差项因子的引入不仅加快了可适应变宽核密度估计器搜索最优窗口宽度的速度,且在一定程度上降低了“过平滑”概率密度估计现象发生的风险.对KDE-AVB和IKDE-AVB的仿真结果表明,IKDE-AVB不仅获得了更快的训练速度(最高降低64%),同时提升了概率密度的估计精度(估计误差最高降低63%). 金会赏 何玉林 何玉林 王晓兰 王晓兰关键词:人工智能 概率密度 核密度估计 基于神经网络的工厂用电状态识别方法 被引量:1 2019年 智能电表的迅速普及与应用引起电力消耗数据(即智能电网数据)的激增,这不仅给数据的存储与通信带来了挑战,同时也增加了对数据进行分析的难度。另外,由于生产性质和经营方式的不同,工厂的用电状态往往比较复杂。基于传统经验的人工识别不能满足实际应用的需求,该文研究了一种基于神经网络的工厂用电状态自动识别方法。首先,对采集于真实应用场景的电网大数据进行必要的预处理,包括数据的合并、清洗、标准化、打标和抽样;然后,基于预处理的电网数据构建神经网络模型用于对工厂用电状态的自动识别;最后,对提出的基于神经网络的工厂用电状态识别方法进行实验验证,证实了该方法的合理性和有效性。通过对工厂用电状态的准确识别,能够帮助供电公司指导企业进行错峰用电,进而有效缓解电力供给不平衡的问题,以达到对电能合理开发和利用的目的。 秦红莲 何玉林 何玉林关键词:人工智能 神经网络 智能电表 电网数据 随机权网络泛化能力改进方法及装置 本发明公开了一种随机权网络泛化能力改进方法及装置,该方法及装置在不改变随机权网络框架结构的前提下,通过挖掘训练样本中的不确定性值最大的目标样本,生成与不确定性值最大目标样本近似同分布的仿真样本,并基于仿真样本迭代式地对随... 何玉林 敖威文献传递 基于夹角几何的I-niceMO增强算法 2023年 针对I-niceMO算法在候选聚类中心合并时中心数目难以确定和中心点识别不准确的问题,提出了基于夹角几何的I-niceMO增强(I-niceMOEn)算法。利用观测点与数据点之间的距离和角度分布情况找出数据中尽可能多的候选聚类中心,以避免多类别数据聚类中出现的类别丢失的情况;利用谱聚类算法对候选聚类中心进行聚类,根据拉普拉斯矩阵特征值的大小自动地对候选聚类中心进行合并;根据合并后的聚类中心的数量确定最终的数据聚类类别数。I-niceMOEn算法实现了对数据类别数的自动确定,并且在聚类过程中不需要人为设置参数。实验结果表明:I-niceMOEn算法在收敛的同时能够获得优于传统自动聚类算法和I-niceMO算法的类中心确定表现。 何一帆 何玉林 何玉林 黄哲学关键词:自动聚类 谱聚类 无监督学习 一种数据属性的分组方法、装置、设备及存储介质 本申请实施例公开了一种数据属性的分组方法、装置、设备及存储介质。其中,该方法包括:根据待分类数据的聚类簇的中心点、属性与属性组的当前第一关系矩阵,以及聚类簇与属性组的当前第二关系矩阵,更新聚类簇与属性的当前第三关系矩阵(... 何玉林 欧桂良文献传递 基于候选中心融合的多观测点I-nice聚类算法 2022年 伴随着问题场景数据在规模上的快速增长和构成上的复杂化,精确估计簇的个数和簇的中心点是当下聚类算法处理和分析复杂大规模数据的重要挑战.簇数及簇心的精确估计对于部分有参聚类算法、数据集整体复杂性度量和数据简化表示等都十分关键.文中在深入分析I-nice的基础上,提出基于候选中心融合的多观测点I-nice聚类算法.在原多观测点投影分治框架上采用混合高斯模型(Gaussian Mixture Model,GMM),结合粗细粒度最佳GMM搜索策略,实现数据子集的精确划分.此外,基于候选中心点分别到各观测点的距离值及最佳GMM,构造候选中心点的GMM构件向量,并设计一组闵可夫斯基距离对进行候选中心点间的相异度度量,实现基于GMM构件向量相异度的多观测点I-nice候选中心融合.不同于现有聚类算法,文中算法联合优化分治环节数据子集划分和候选中心集成这两个关键过程,实现成百上千个簇的精确高效估计.在真实数据集和仿真数据集上的一系列实验表明,文中算法能精确估计簇数和簇中心,具备较高的聚类精度.实验同时验证算法的有效性及在各类数据场景下的稳定性. 陈鸿杰 何玉林 何玉林 尹剑飞关键词:无监督学习 观测点 高斯混合模型 基于无放回抽样的帕尔森窗口集成方法 被引量:1 2018年 为解决大规模数据集的概率密度函数估计问题,提出一种基于无放回抽样的帕尔森窗口集成(sampling without replacement-based Parzen window ensemble,SR-PWE)方法,该方法在不需要利用全部数据的前提下,能够以较低的计算复杂度获得令人满意的概率密度函数估计表现.基于无放回抽样得到的若干原数据集的数据子集,利用帕尔森窗口法在数据子集上进行基概率密度函数估计,并将抽样上估计的基概率密度函数集成得到原始数据集的概率密度函数.通过在柯西分布和正态分布上对比帕尔森窗口法和SRPWE方法的概率密度函数估计表现,证实SR-PWE方法可行且有效. 何武超 王晓兰 何玉林 何玉林关键词:概率分布 大规模数据集