江苏省普通高校研究生科研创新计划项目(CXZZ12-0759) 作品数:8 被引量:24 H指数:3 相关作者: 许敏 王士同 顾鑫 俞林 史荧中 更多>> 相关机构: 无锡职业技术学院 江南大学 无锡北方湖光光电有限公司 更多>> 发文基金: 江苏省普通高校研究生科研创新计划项目 国家自然科学基金 江苏省教育厅哲学社会科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
大样本领域自适应支撑向量回归机 被引量:3 2013年 针对回归问题中存在采集数据不完整而导致预测性能降低的情况,根据支撑向量回归机(support vector regression,简称SVR)等价于中心约束最小包含球(center-constrained minimum enclosing ball,简称CC-MEB)以及相似领域概率分布差异只与两域各自的最小包含球中心点位置有关的理论新结果,提出了针对大数据集的领域自适应核心集支撑向量回归机(adaptive-core vector regression,简称A-CVR).该算法利用源域CC-MEB中心点对目标域CC-MEB中心点进行校正,从而提高目标域的回归预测性能.实验结果表明,这种领域自适应算法可以弥补目标域缺失数据的不足,大大提高回归预测性能. 许敏 王士同 顾鑫 俞林关键词:领域自适应 支撑向量回归 大数据集 基于最小包含球的大数据集域自适应快速算法 被引量:3 2013年 相同应用领域,不同时间、地点或设备检测到的数据域不一定完整.文中针对如何进行数据域间知识传递问题,提出相同领域的概率分布差异可用两域最小包含球中心点表示且其上限与半径无关的定理.基于上述定理,在原有支持向量域描述算法基础上,提出一种数据域中心校正的领域自适应算法,并利用人造数据集和KDD CUP 99入侵检测数据集验证该算法.实验表明,这种领域自适应算法具有较好的性能. 许敏 王士同 顾鑫 俞林关键词:领域自适应 大数据集 一种新的面向迁移学习的L_2核分类器 被引量:1 2013年 基于密度差(Difference Of Density,DOD)思想,L2核分类器算法具有良好的分类性能及稀疏性,然而其训练域与测试域独立同分布的假设限制了其应用范围。针对此不足,该文提出一种新的面向迁移学习的L2核分类器(Transfer Learning-L2 Kernel Classification,TL-L2KC),该方法既保持了L2核分类器算法良好的分类性能,又能处理数据集缓慢变化及训练集在特定约束条件下获得导致训练集和未来测试集分布不一致的问题。基于人造数据集和UCI真实数据集的实验表明,该文提出的TL-L2KC算法较之于经典的迁移学习分类方法,具有相当的、甚至更好的性能。 许敏 王士同 史荧中关键词:支持向量机 一种新颖的领域自适应概率密度估计器 被引量:1 2015年 传统概率密度估计法建立好密度估计模型后,无法将源域知识传递给相关目标域密度估计模型。提出用无偏置v-SVR的回归函数来表示传统概率密度估计法获得密度估计信息,并说明无偏置v-SVR等价于中心约束最小包含球及概率密度回归函数可由中心约束最小包含球中心点表示。在上述理论基础上提出中心点知识传递领域自适应概率密度估计法,用于解决因目标域信息不足而无法建立概率密度函数的场景。实验表明,此种领域自适应方法进行领域间知识传递的同时,还能达到源域隐私保护的目的。 许敏 俞林关键词:概率密度函数 领域自适应 基于RSDE的领域自适应概率密度估计方法 被引量:2 2013年 同一应用领域不同时间、地点或设备,采集的样本数据可能存在扰动、噪音或缺失,如何对样本数据集进行有效的预处理是其进一步应用的前提.针对上述问题,提出一种新的基于压缩集密度估计(RSDE)算法的领域自适应概率密度估计方法A-RSDE,通过学习源域(训练域)知识,使目标域(测试域)概率密度估计更接近真实概率密度分布,并用基于近似最小包含球的核心集快速算法求解A-RSDE,将其应用于大数据集密度估计.Benchmark和UCI数据集上的实验表明,该算法具有较好的性能. 许敏 王士同 顾鑫 俞林关键词:领域自适应 MMCKDE:基于数据流的m-混合聚类核概率密度估计 2014年 数据流挖掘应用对时间、空间有着较高的要求,因而传统的密度估计方法,如核密度估计法、压缩集密度估计法等并不适用于数据流密度估计.提出一种新颖的面向在线数据流的m-混合聚类核密度估计(m-mixed clustering kernel density estimation,MMCKDE)方法,该方法通过创建MMCKDE节点,用固定个数的混合聚类核获得聚类信息,以代替其他密度估计方法中的所有核.针对数据量不断增加的情况,通过计算Kullback Leibler(KL)距离进行核合并,可进一步以更紧凑的形式表示概率密度估计信息.较之于其他一些方法只能估计整段数据流的密度,MMCKDE方法最终获得的模型不仅适用于整段数据流,还适用于任意时间段上的密度估计.MMCKDE算法同SOMKE算法在不同基准数据集及真实数据集上进行密度估计精度和运行时间的比较.实验结果表明,MMCKDE算法具有更好的性能. 许敏 邓赵红 王士同 史荧中关键词:核密度估计 流数据挖掘 TL-SVM:一种迁移学习算法 被引量:14 2014年 迁移学习旨在利用大量已标签源域数据解决相关但不相同的目标域问题.当与某领域相关的新领域出现时,若重新标注新领域,则样本代价昂贵,丢弃所有旧领域数据又十分浪费.对此,基于SVM算法提出一种新颖的迁移学习算法—–TL-SVM,通过使用目标域少量已标签数据和大量相关领域的旧数据来为目标域构建一个高质量的分类模型,该方法既继承了基于经验风险最小化最大间隔SVM的优点,又弥补了传统SVM不能进行知识迁移的缺陷.实验结果验证了该算法的有效性. 许敏 王士同 顾鑫关键词:支持向量机 面向非静态数据分类的演进支持向量机 2013年 时间自适应支持向量机(TA-SVM)方法在处理非静态数据集时表现出良好的性能,但仅根据邻接子分类器相似而获得的相关信息并不充分,由此可能会导致训练所得模型不可靠,限制其应用能力。该文通过定义子分类器序列的相关性衰减函数,提出新的面向非静态数据分类问题的演进支持向量机(Evolving Support VectorMachines,ESVM)。ESVM使用衰变函数以体现子分类器之间的相关程度,通过约束所有子分类器之间的带权差异以求得变化更光滑的子分类器序列,契合了数据中隐藏的渐变概念。在各种数据缓慢变化场景的对比实验中,该文的ESVM方法优于TA-SVM方法。 史荧中 王士同 张景祥 倪彤光关键词:支持向量机 演进