安徽省自然科学基金(090412044)
- 作品数:15 被引量:100H指数:5
- 相关作者:胡学钢张玉红李燕李培培何伟更多>>
- 相关机构:合肥工业大学安徽农业大学宿州学院更多>>
- 发文基金:安徽省自然科学基金国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学电子电信更多>>
- 基于Logistic回归分析的直推式迁移学习被引量:4
- 2010年
- 传统的机器学习方法基于一个基本的假设:训练数据和测试数据遵循相同的分布。然而,在许多现实的应用中,这种假设并不能够被保证。在这种情况下,传统的机器学习方法因没有意识到分布的改变而可能失败。近年来,迁移学习技术被专门用来解决这一缺陷。文章提出了一种叫做TTLR的方法,将原始领域中的训练数据有效地迁移到目标领域中,该方法首先对Logistic回归分析模型进行扩展,然后利用不同领域概率分布之间的差异性,调节训练数据中每个实例的权重,从而使得训练得到的分类器更加适应于目标领域;在所选取的数据集上得到的实验结果表明,与传统的监督式学习方法相比,所提出的方法有很大的优势。
- 胡学钢方玉成张玉红
- 关键词:LOGISTIC回归分析
- 基于C4.5和NB混合模型的数据流分类算法被引量:9
- 2010年
- 具有概念漂移的含噪数据流的分类问题成为数据流挖掘领域研究的热点之一。提出了一种基于C4.5和Nave Bayes混合模型的数据流分类算法CDSMM。它以C4.5作为基分类器,采用朴素贝叶斯分类器过滤噪音,同时引入假设检验中的μ检验方法检测概念漂移,动态更新模型。实验结果表明,CDSMM算法在处理带有噪音的概念漂移数据流时具有比同类算法更好的分类正确率。
- 李燕张玉红胡学钢
- 关键词:数据流概念漂移
- 一种基于最大熵模型的加权归纳迁移学习方法被引量:4
- 2011年
- 传统机器学习和数据挖掘算法主要基于两个假设:训练数据集和测试数据集具有相同的特征空间和数据分布.然而在实际应用中,这两个假设却难以成立,从而导致传统的算法不再适用.迁移学习作为一种新的学习框架能有效地解决该问题.着眼于迁移学习的一个重要分支——归纳迁移学习,提出了一种基于最大熵模型的加权归纳迁移学习算法WTLME.该算法通过将已训练好的原始领域模型参数迁移到目标领域,并对目标领域实例权重进行调整,从而获得了精度较高的目标领域模型.实验结果表明了该算法的有效性.
- 梅灿华张玉红胡学钢李培培
- 关键词:数据挖掘最大熵归纳式ADABOOST
- 一种改进的二分网络链路预测算法被引量:1
- 2014年
- 针对二分网络图中基于链路预测的ILP算法在投影过程中只采用了底部节点,从而导致网络拓扑信息利用不充分的问题,文章提出改进的ILPExt算法,将顶部投影信息和底部投影信息结合起来,根据二部图的底部节点和顶部节点分别生成底部投影图和顶部投影图,然后在2个投影图中分别找出顶部节点和底部节点的内部链边集,并进行合并,得到预测链路的边集。实验结果表明,改进的ILPExt算法比ILP算法能够找出更多的链路预测边,并且提高了召回率。
- 马吴迪胡学钢何伟
- 关键词:链路预测复杂网络
- 基于蜕变关系的聚类程序测试方法被引量:4
- 2011年
- 数据挖掘技术在计算机系统中的应用越来越广泛,对其软件做质量保证的测试势必日益受到重视。然而,传统的测试方法难以适应数据挖掘领域,因为其应用程序存在"oracle"问题。基于蜕变测试技术,提出数据挖掘领域的软件评测方法,并以一个聚类算法为具体案例展开研究分析,构造了一系列蜕变关系。实验表明,此方法不仅能达到核查程序正确性的目的,还可揭示算法的适用性。并且,此方法具有推广到其他领域的可行性。
- 张晶胡学钢张斌
- 关键词:数据挖掘聚类
- D-S证据理论在决策支持系统中的应用被引量:8
- 2010年
- D-S证据理论提供了一种解决多数据源不确定信息推理和融合的有效方法。证据理论能够对各自独立的证据加以综合给出一致性结果,并能处理具有模糊和不确定信息的合成问题,最终达到信息互补。与其他推理方法相比更符合人类思维决策过程。为此,提出一种基于D-S证据理论的灾害决策支持方法,并根据试验结果验证了该方法的有效性和可行性。
- 刘晓光胡学钢
- 关键词:D-S证据理论数据融合不确定性决策支持系统
- 基于Mashup数据聚合的Web购物服务系统
- 网上购物越来越受欢迎,商店在互联网上注册量也出现前所未有的增长。由于信息和服务分散在不同的网站,导致网上购物消耗人们较多的时间。针对该问题,本文研究了一种基于MVC模型的互联网聚合平台,并使用ExtJS中的特定组件聚合W...
- 王婧吴共庆章湘南胡学钢
- 关键词:MASHUP数据聚合MVC模型
- 文献传递
- 基于Web的频繁分子结构挖掘系统
- 将频繁子图挖掘算法应用到化学分子的频繁子结构挖掘中,对于化合物的合成以及新药发现等研究都有极大的推动作用。本文利用Java开源软件开发工具包ParMol(Parallel Molecular Mining)和Marvin...
- 徐仁干吴共庆李海光胡学钢吴信东
- 文献传递
- 基于张量空间模型的中文文本分类被引量:2
- 2010年
- 针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文本集,将基于向量的kNN分类器扩展到张量上以构建分类器。该方法简化了预处理过程,提高了准确率,并使得更多张量学习方法能够在中文文本分类中得以应用。实验证明其具有较高的分类准确率,有一定的实用价值。
- 何伟胡学钢谢飞
- 关键词:文本分类
- 一种属性选择方法FS-IV的研究被引量:1
- 2010年
- 数据挖掘所面对的数据常具有属性冗余、包含噪音等特点,使得更注重训练数据质量的分类模型训练周期变长、精度下降。因此,如何选择有效的属性集以约减数据规模,提高分类模型性能具有重要意义。文章将IV模型用于属性选择,提出了基于IV指标的属性选择算法FS-IV,该算法仅需一遍扫描计算出所需的相关统计量,解决了传统属性选择方法处理较大规模数据时空效率不高的问题。实验表明,FS-IV属性选择方法时空性能良好,对冗余、噪音属性均有较好的区分能力,能够有效地约减数据规模。
- 杨秋洁胡学钢