李雪 作品数:12 被引量:29 H指数:3 供职机构: 昆士兰大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家科技重大专项 更多>> 相关领域: 自动化与计算机技术 更多>>
针对不确定正例和未标记学习的最近邻算法(英文) 被引量:2 2010年 研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearest neighbor algorithm for positive and unlabeled learning)。NNPU具有两种实现方式:NNPUa和NNPUu。在UCI标准数据集上的实验结果表明,充分考虑数据不确定信息的NNPUu算法要比仅仅考虑样本中不确定信息均值的NNPUa算法具有更好的分类能力;同时,NNPU算法在对精确数据进行分类时,比NN-d、OCC以及aPUNB算法性能更优。 潘世瑞 张阳 李雪 王勇关键词:不确定数据 最近邻算法 支持向量双效分类器及其应用 2018年 支持向量分类器的两种分类模型是超平面和超球体,前者在有重叠类别的数据集上表现不佳,后者存在过适应问题.为此,本文提出了双效分类思想,在训练分类器过程中同时学习类间差异信息及类内特征信息,以克服上述问题并提高分类性能.进而,提出了具体实现算法,支持向量双效分类器(Doubled-Informed classifier based on Support vectors,DISV).DISV为各类生成收缩远离球,并基于此定义决策函数.收缩远离球的球面穿过类内密集分布区,并保持与其他类的最大远离.DISV辅以训练子集抽取策略和参数自适应调整策略以降低算法代价.实验表明,双效分类思想有效,其在心脏肥大数据集上的诊断结果优于同类算法. 凌萍 荣祥胜 李雪关键词:支持向量 一种面向连续型属性的特征选取方法 2011年 特征选取是数据约简方法之一,其对提高机器学习的效率和效果具有重要影响。根据对象在特征空间中的分布,划分连续特征空间为类别单一、边界清晰的多个子空间。依统计学意义,把各个子空间分别投影到所有特征上,获取所有不同类别子空间对当前子空间特征区分能力的评估。通过构造区分能力评估矩阵,实现特征分类能力的排序。引入特征集区分能力信息增益,结合特征分类能力排序,逐一优选特征,最终完成特征子集的求解。采用UCI(University of California Irvine)数据集进行实验,获取特征子集,利用该特征子集,提高了机器学习效率和分类精度,表明了特征选取的可行性。 李国和 岳翔 李雪 吴卫江 李洪奇关键词:数据约简 特征选取 决策表 IPsec在嵌入式VPN系统中的应用 被引量:3 2004年 依据网络安全理论,应用IPsec技术,对嵌入式VPN系统的认证过程进行了理论和应用性的讨论.重点探讨了嵌入式系统认证体系及其基于IPsec的实现方法,给出了一种基于端———端连接的嵌入式VPN系统的认证实施方案. 李纪扣 程晓玲 李雪关键词:IPSEC技术 虚拟专用网络 网络安全 针对不确定正例和未标记学习的最近邻算法(英文) 研究了在正例和未标记样本场景下不确定样本的分类问题,提出了一种新的算法NNPU(nearestneighbor algorithm for positive and unlabeled learning)。NNPU具有两... 潘世瑞 张阳 李雪 王勇关键词:不确定数据 最近邻算法 文献传递 图划分在混合内存系统的实现与性能优化 2019年 图划分是大图数据并行计算的基础,目前主要采用分布式算法实现大图划分.非易失存储器(Non-Volatile Memory,NVM)速度接近动态随机存储器(Dynamic Random Access Memory,DRAM),且具有低功耗、高密度、低时延等优点,本文针对分布式图划分算法难以分析和调试等问题,设计了基于混合内存的单机图划分算法框架.作者提出了基于邻边结构的图划分结果动态缓存管理策略(AeFdy),以提高缓存区邻居节点的搜索效率.在17种真实应用数据上的实验结果表明,采用新方法的平均图划分速度是基于邻点结构算法的4.9倍.本文还针对NVM寿命有限的问题,设计了基于内存页读写特征的迁移算法,实现了NVM写操作受限条件下的迁移优化方案.相对于Linux Swap、M-CLOCK、Dr.Swap混合内存管理策略,使用AeFdy策略的性能分别提升了128.5%、87.4%与50.4%.仿真实验结果表明,本文设计的混合内存管理方法实现了NVM+DRAM高效协同. 李琪 钟将 李雪关键词:复杂网络 非易失存储器 基于异构星型网络分析的药物推荐改进算法HIC-MedRank 被引量:2 2017年 伴随着医疗文献数据库的快速增长,缺乏经验的初级医师在为患者开处方时难以阅读大量的医疗文献来获得科学的决策辅助。2013年提出的MedRank算法从Medline数据库中提取医学信息异构星型网络,基于"有疗效的药物是由好的文章提及的,好的文章是由优秀的作者写的并刊登在高水平的期刊上"的假设,旨在为各类疾病的患者推荐最具有疗效的药物。该算法仍然存在几个问题:1)模型输入的疾病不是独立的疾病;2)推荐的结果不是具体的药物;3)没有考虑文章的发表时间等其他因素;4)没有定义判定作者、期刊、文章是"好的"的标准。对以上问题进行了研究并提出HIC-MedRank算法,该算法纳入作者的H指数、期刊的影响因子、文章的引用数作为评判作者、期刊、文章是否优秀的指标,并综合考虑文章的发表时间、支持机构、发表类型等因素,为高血压合并慢性肾脏病(CKD)患者推荐最佳的降压药物。在Medline数据集上的实验结果显示HIC-MedRank推荐的药物比MedRank算法推荐的药物更为精准,与主治医师投票选择的药物较为一致,与美国成人高血压治疗指南(JNC)推荐的药物一致性达到80%。 邹林霖 李学明 李雪 袁洪 刘星关键词:临床决策支持 H指数 一种基于改进网格多维TTI索引的动态Top-k查询算法 被引量:2 2019年 Top-k查询是目前海量数据在动态环境中高效处理的重要方法之一.在许多实际应用中,满足用户偏好的top-k查询一般由两个部分组成:选择条件和排序函数.用户可自行设置排序函数,也可选择对不同数据子集进行查询.在传统数据库领域中已经对top-k算法进行了深入的研究,但是现有的方法不适用于大量目标对象的属性值发生动态变化的情况.在查询过程中由于目标对象的属性值发生改变可能导致查询结果的改变,从而对算法性能有更高的要求.围绕动态top-k计算问题,在网格索引的基础上提出了TTI索引,通过TTI索引中的概要信息高效计算网格k支配能力并划分影响区和自由区.根据划分的区域裁剪数据集并降低数据动态变化时需重新计算发生的概率.实验中采用多种数据集进行测试,分别与top-k、RankCube和CIA算法进行了比较.实验结果验证了算法的有效性,实验数据表明在静态情况下,该文算法的查询效率可比传统top-k算法最多快至8倍,动态情况下可比传统top-k算法最多快10倍. 邓丹苹 秦小麟 李博涵 李博涵 刘亮 李雪关键词:TOP-K查询 网格索引 主题特征格分析:一种用户生成文本质量评估方法 被引量:9 2018年 本文设计了一种用户生成文本的质量分析框架.首先,基于主题分析构建商品类别主题特征集合.其次,利用主题特征与商品分类的强关联关系,构建形式化概念分析的形式背景,将分类-主题概念格化简并生成主题特征格,以此构建五个质量特征并生成质量评估模型.最后,在真实评论数据上的实验结果表明新方法具有更高预测精度. 钟将 张淑芳 张淑芳 李雪关键词:主题特征 基于启发策略的动态平衡图划分算法 被引量:5 2017年 随着计算技术的发展以及大数据时代的来临,分布式计算已成为研究的热点,其中大图迭代计算作为其研究的重点,降低划分后子图之间的通信边规模是改善计算性能的关键.传统算法很难在切割率最小化与负载均衡上同时满足.由于图划分属于NP组合优化问题,提出了一种动态平衡算法来解决图的平衡划分,确保在子图边界点划分最优的基础上引入扰动策略使其跳出局部最优扩大搜索空间,最后在真实世界图上验证算法的可行性,分别从平衡系数、切割边规模与传统算法进行了比较.在指定的扰动次数下,此算法比常见的算法hash,Chunk,Metis在割边率上分别降低了近40%,30%,5%.与Metis相比,平衡系数也更加地优化,实验结果证明了该算法的有效性. 李琪 钟将 李雪关键词:负载均衡 分布式计算