严远亭 作品数:19 被引量:54 H指数:4 供职机构: 安徽大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 安徽大学博士科研启动基金 安徽省自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
一种边缘计算和云计算融合的实时视频监控方法及系统 本发明公开了一种边缘计算和云计算融合的实时视频监控方法,包括:构建样本的训练库,使用样本训练库中的图像信息训练CNN卷积神经网络,构建CNN卷积神经网络模型结构作为训练芯片内容,将训练芯片嵌入前端边缘设备中;实时提取边缘... 张以文 钟响亮 吴金涛 严远亭文献传递 高年级本科生人工智能课程教学实践与探究 被引量:13 2018年 针对人工智能课程的特点,分析当前高年级本科生人工智能教学中存在的问题,提出从实践能力培养、科研能力培养、教学内容优化和考核方式优化4个方面对人工智能进行教学改革,并就如何构建多元化、长周期的能力培养模式进行探讨。 严远亭 张以文 陈洁 张燕平关键词:人工智能 教学改革 构造性覆盖下不完整数据修正填充方法 被引量:4 2019年 不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。 严远亭 吴亚亚 赵姝 张燕平关键词:不完整数据 缺失值填充 邻域信息 数据挖掘 一种局部和全局用户影响力相结合的社交推荐算法 被引量:3 2015年 传统的协同过滤推荐系统认为用户之间的行为相互独立,忽视了用户之间的影响关系.而用户的历史行为数据不同、社交网络关系不同,其相互之间存在的影响力不同.为了分析用户的社交影响力在推荐中所起到的作用,通过历史行为数据和社交网络结构分析用户的局部影响力和全局影响力,分别提出基于局部影响力和基于全局影响力的模型以及两种影响力综合的模型.通过在真实的数据集上的实验表明,与以往方法相比,本文提出的基于影响力的三种模型在推荐精度上有一定提升,且在稀疏的数据集上基于全局影响力的模型和综合模型提升效果比更明显. 张燕平 张顺 钱付兰 严远亭关键词:推荐系统 社交网络 矩阵分解 基于覆盖随机游走算法的服务质量预测 被引量:5 2018年 随着互联网上Web服务的日益增多,面对大量功能相同的候选服务,用户希望能够选择质量最优的候选服务.然而,用户通常并不知道所有候选服务的服务质量(Quality of Service,QoS).因此,基于Web服务的历史记录预测QoS值得到了广泛关注.传统的基于协同过滤(CF)的预测方法可能会遭遇数据稀疏、用户信任等问题,导致该方法在预测精度方面表现一般.为解决上述问题,该文提出一种基于覆盖随机游走算法的服务质量预测方法.该方法首先基于用户服务历史QoS记录,使用改进的覆盖算法对用户进行聚类,选取与每个用户聚类次数的Top-k个用户为该用户的信任用户,连接所有用户与其信任用户构建用户信任网;其次,基于用户信任网提出一种随机游走预测方法,在随机游走的过程中,不仅考虑目标服务的QoS信息,同时考虑相似服务的QoS信息,以确保QoS预测的准确性;最后,每次随机游走获得一个QoS值,为使预测更加准确,作者进行多次随机游走,汇总所有QoS值进行预测.为验证文中方法的有效性,作者在真实的Web服务数据集进行了大量实验,其中包括来自339个用户的5825个真实世界Web服务的1 974 675个Web服务调用.实验结果表明文中方法在预测精度上明显优于现有方法,同时可以很好地解决推荐系统的数据稀疏和用户信任问题. 张以文 汪开斌 严远亭 陈洁 何强 李炜关键词:服务质量 随机游走 协同过滤 邻域信息修正的不完整数据多填充集成分类方法 被引量:2 2023年 不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。针对该问题,提出一种邻域信息修正不完整数据多填充集成分类方法。该方法通过嵌入修正填充模块来优化填充过程,利用纯度和邻域半径筛选出待修正填充的近邻数据样本,并根据这些近邻数据样本对缺失值进行修正填充,进一步提升填充精度。同时,融合了多种经典填充算法优势,利用多填充的数据多样性,通过引入集成学习提升分类精确度。实验结果表明,该方法对基准数据集上的缺失值填充效果、数据分类精确度都优于对比方法,同时在真实不完整数据集上也表现出更好的分类精确度。 朱先远 严远亭 张燕平关键词:邻域信息 邻域感知的不平衡数据集过采样方法 被引量:4 2021年 不平衡数据学习是机器学习中一个研究热点,近年来得到广泛的关注.以SMOTE为代表的过采样方法是不平衡数据学习的主流方法之一,近年来涌现出大量的基于SMOTE的改进过采样方法.但是,当前对过采样的研究中,如何利用样本分布信息,实现高效的过采样,仍然是一个具有挑战的问题.本文提出一种有监督的样本空间分布学习方法,用以学习少数类样本的局部邻域信息,并以局部邻域信息约束过采样过程中样本的合成,以降低线性插值可能带来的噪声以及样本重叠等不利因素,从而提高过采样的效率.在典型不平衡数据集上的实验表明,利用少数类样本邻域信息为约束,能有效提升过采样的效率. 严远亭 戴涛 张以文 赵姝 张燕平关键词:过采样 SMOTE 邻域信息 构造性覆盖算法的SMOTE过采样方法 被引量:8 2020年 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 严远亭 朱原玮 吴增宝 张以文 张燕平关键词:不平衡数据 过采样技术 学习困难与泛化能力感知的软件缺陷预测过采样方法 2024年 软件缺陷数据的类别分布不平衡特点给软件缺陷预测任务带了巨大的挑战。合成过采样是解决这一问题最为主流的技术,但如何设计合适的采样策略避免因引入异常样本而导致的过度泛化风险,始终是软件缺陷预测过采样方法面临的难点。针对这一问题,本文提出一种结合样本学习困难程度和合成泛化影响的过采样方法(GDOS)。具体来说,GDOS方法通过样本的局部先验概率和潜在合成方向上的样本分布信息衡量样本的安全系数与泛化系数,并以此度量样本的选择权重。通过抑制潜在过泛化区域的样本合成概率,给予相对安全的近邻合成方向更高的选择概率,为高质量样本的合成提供保障。在26个PROMISE数据集上的实验表明,GDOS在MCC、pd、pf、F-measure等指标上较于经典的采样方法和专门提出的软件缺陷预测采样方法均取得了更优的性能表现。 范洪旗 严远亭 严远亭 张以文关键词:软件缺陷预测 过采样 一种基于Hadoop云平台Web资源个性化推荐系统及方法 本发明公开了一种基于Hadoop云平台Web资源个性化推荐系统及方法;用户模型模块收集用户在Web资源页面的浏览行为信息,并根据用户在Web资源页面的浏览行为信息为用户的不同行为类型赋予不同的权值,再根据上述不同的权值计... 张以文 王祥如 郭星 严远亭 刘政怡文献传递