国家自然科学基金(60975034)
- 作品数:22 被引量:88H指数:5
- 相关作者:胡学钢张玉红李燕胡春玲姚宏亮更多>>
- 相关机构:合肥工业大学合肥学院合肥师范学院更多>>
- 发文基金:国家自然科学基金安徽省自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学理学电子电信更多>>
- 基于规则和统计相结合的中文命名实体识别研究被引量:27
- 2012年
- 介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。
- 潘正高
- 关键词:文本特征中文命名实体
- 一种改进的二分网络链路预测算法被引量:1
- 2014年
- 针对二分网络图中基于链路预测的ILP算法在投影过程中只采用了底部节点,从而导致网络拓扑信息利用不充分的问题,文章提出改进的ILPExt算法,将顶部投影信息和底部投影信息结合起来,根据二部图的底部节点和顶部节点分别生成底部投影图和顶部投影图,然后在2个投影图中分别找出顶部节点和底部节点的内部链边集,并进行合并,得到预测链路的边集。实验结果表明,改进的ILPExt算法比ILP算法能够找出更多的链路预测边,并且提高了召回率。
- 马吴迪胡学钢何伟
- 关键词:链路预测复杂网络
- 一种基于桶树的自动推理问题求解算法
- 2013年
- 桶消元和连接树推理算法是处理自动推理问题的两种常用的推理算法。针对连接树推理算法中消息传播效率问题,提出了一种能有效进行消息传播的连接树推理算法JTR。针对桶消元推理算法BE处理多任务的自动推理问题效率低下的问题,采用连接树结构和连接树推理算法JTR的消息传播方式对桶消元算法BE进行改进和扩展,提出了一种桶树推理算法BJTR。通过对算法BE、BTE和BJTR的时空性能分析发现:与同类算法BTE相比,算法BJTR在空间略有下降的情况下提高了时间性能;针对多任务的自动推理问题,与桶消元推理算法BE相比,BJTR算法的空间略有下降,时间性能得到明显提高;并通过实例和实验进一步验证了算法BJTR针对多任务的自动推理任务具有良好的时间性能。
- 袁暋胡春玲胡学钢姚宏亮
- 关键词:多任务连接树
- 基于链接路径搜索的URL属性集成方法
- 2013年
- 在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳。为此,提出一种基于链接路径包的URL属性集成方法。采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹配策略求解得到URL属性值,并将其填充到目标数据库。实验结果表明,与W2DR算法相比,该方法在2个不同数据集中的F值分别提高13.91%和3.54%。
- 马艳红胡学钢吴共庆
- 关键词:网页标题半结构化数据锚文本
- 基于蜕变关系的聚类程序测试方法被引量:4
- 2011年
- 数据挖掘技术在计算机系统中的应用越来越广泛,对其软件做质量保证的测试势必日益受到重视。然而,传统的测试方法难以适应数据挖掘领域,因为其应用程序存在"oracle"问题。基于蜕变测试技术,提出数据挖掘领域的软件评测方法,并以一个聚类算法为具体案例展开研究分析,构造了一系列蜕变关系。实验表明,此方法不仅能达到核查程序正确性的目的,还可揭示算法的适用性。并且,此方法具有推广到其他领域的可行性。
- 张晶胡学钢张斌
- 关键词:数据挖掘聚类
- 垂直划分多决策表下基于条件信息熵的隐私保护属性约简被引量:2
- 2010年
- 针对垂直划分多决策表,利用半可信第三方和交换加密体制,设计了一个安全多方计算交集基数协议。利用该协议设计了安全多方计算信息熵和安全多方计算条件信息熵的解决方案,提出了一种基于条件信息熵的隐私保护属性约简算法。该算法基于粗糙集信息观的约简理论实现了分布式环境下全局属性约简的求解,使各参与方在不共享其隐私信息的前提下达到集中式属性约简的效果。分析结果表明该算法是有效可行的。
- 叶明全胡学钢伍长荣
- 关键词:属性约简隐私保护安全多方计算粗糙集条件信息熵
- D-S证据理论在决策支持系统中的应用被引量:8
- 2010年
- D-S证据理论提供了一种解决多数据源不确定信息推理和融合的有效方法。证据理论能够对各自独立的证据加以综合给出一致性结果,并能处理具有模糊和不确定信息的合成问题,最终达到信息互补。与其他推理方法相比更符合人类思维决策过程。为此,提出一种基于D-S证据理论的灾害决策支持方法,并根据试验结果验证了该方法的有效性和可行性。
- 刘晓光胡学钢
- 关键词:D-S证据理论数据融合不确定性决策支持系统
- 基于Logistic回归分析的直推式迁移学习被引量:4
- 2010年
- 传统的机器学习方法基于一个基本的假设:训练数据和测试数据遵循相同的分布。然而,在许多现实的应用中,这种假设并不能够被保证。在这种情况下,传统的机器学习方法因没有意识到分布的改变而可能失败。近年来,迁移学习技术被专门用来解决这一缺陷。文章提出了一种叫做TTLR的方法,将原始领域中的训练数据有效地迁移到目标领域中,该方法首先对Logistic回归分析模型进行扩展,然后利用不同领域概率分布之间的差异性,调节训练数据中每个实例的权重,从而使得训练得到的分类器更加适应于目标领域;在所选取的数据集上得到的实验结果表明,与传统的监督式学习方法相比,所提出的方法有很大的优势。
- 胡学钢方玉成张玉红
- 关键词:LOGISTIC回归分析
- 基于C4.5和NB混合模型的数据流分类算法被引量:9
- 2010年
- 具有概念漂移的含噪数据流的分类问题成为数据流挖掘领域研究的热点之一。提出了一种基于C4.5和Nave Bayes混合模型的数据流分类算法CDSMM。它以C4.5作为基分类器,采用朴素贝叶斯分类器过滤噪音,同时引入假设检验中的μ检验方法检测概念漂移,动态更新模型。实验结果表明,CDSMM算法在处理带有噪音的概念漂移数据流时具有比同类算法更好的分类正确率。
- 李燕张玉红胡学钢
- 关键词:数据流概念漂移
- 基于张量空间模型的中文文本分类被引量:2
- 2010年
- 针对传统的基于向量的中文文本表示方法预处理过程比较复杂,应用于高维数据容易产生维数灾难的局限性,文章提出了一种基于张量空间模型的中文文本分类方法,用三阶张量表示文本集,将基于向量的kNN分类器扩展到张量上以构建分类器。该方法简化了预处理过程,提高了准确率,并使得更多张量学习方法能够在中文文本分类中得以应用。实验证明其具有较高的分类准确率,有一定的实用价值。
- 何伟胡学钢谢飞
- 关键词:文本分类