国家自然科学基金(61202227) 作品数:31 被引量:222 H指数:10 相关作者: 刘慧婷 赵鹏 贾瑞玉 周爱武 李振 更多>> 相关机构: 安徽大学 合肥工业大学 教育部 更多>> 发文基金: 国家自然科学基金 安徽省自然科学基金 安徽省高校省级自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 环境科学与工程 更多>>
不确定数据频繁闭项集挖掘算法 被引量:1 2015年 由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。 刘慧婷 沈盛霞 赵鹏 姚晟关键词:不确定数据 频繁项集 频繁闭项集 剪枝策略 单词和字符表示的协同学习 2018年 当前的词嵌入模型多数基于分布假设理论,这类模型将单词作为最基本语义单元,然后利用词的外部上下文信息学习词表示.然而,在类似于汉语的语言中,单词经常由多个字符组成,这些字符包含了丰富的内部信息,同时单词的语义也和这些字符的语义息息相关.考虑到当前常用词模型均忽略了字符信息,文中以中文为例,提出了单词与字符表示的协同学习模型.为了解决汉语中存在的单字符多语义和多字符单语义情况,文中提出了基于多原型的单词协同学习模型,并使用词相似任务和类比推理任务对该模型进行评估.结果显示,文中模型的词表示质量均优于其他词嵌入模型. 刘慧婷 凌超关键词:内部信息 频繁模式挖掘系统的设计与开发 被引量:2 2018年 在日常生活或者相关科学研究中,使用电子设备会产生大量的数据,如何从数据中删除冗余信息,提取或"挖掘"有用信息就成了当前信息科学和技术领域的一个重要的研究方向。频繁模式挖掘作为众多挖掘算法中的一类基本算法,研究主要包括项目集合、项目序列和时间序列等各种数据中的频繁模式挖掘。频繁模式挖掘算法众多,如数据流频繁闭项集挖掘、不确定数据流的最大频繁项集挖掘和不确定数据的频繁模式匹配。该系统设计的目的是将几个课题组开发的挖掘算法进行集成,并利用可视化界面对算法的性能进行直观的比较。通过系统的可视化界面,可将解决同一问题的多个算法的运行结果放入同一张图中,方便用户查看算法的输出结构并进行算法优劣性的比较。 王楠楠 刘慧婷关键词:频繁模式挖掘 可视化 数据挖掘在高中生综合素质评价中的应用 被引量:1 2014年 自普通高中学生综合素质评价工作开展以来,在高等院校选拔人才时起到了辅助作用。文中引入数据挖掘技术,使其与综合素质评价工作有机地结合起来,符合时代潮流的发展趋势,具有一定的研究价值。文中把改进的基于0-1矩阵向量内积法运用到普通高中学生综合素质评价工作中,这种方法与经典Apriori算法相比,由于只需要对事物数据库进行一次扫描,所以效率比经典Apriori算法提高很多。实验结果证明用这种算法来处理学生综合素质评价数据较为合理。 刘慧婷 刘军 朱永斌关键词:数据挖掘 综合素质评价 关联规则 基于移动平台的图像检索系统 被引量:1 2016年 近年来移动终端的普及促进了移动平台上图像检索技术的发展。当用户看到感兴趣的商品的时候,他们希望能够使用终端拍下来,然后进行商品的检索并返回一些推荐的商家。为了解决这个问题,面向移动平台,构建了一个图像检索系统,通过手机等移动终端,拍摄或传输图片来检索互联网上相关的图片和信息。该系统构建了一个爬虫系统用来采集图片信息,在安卓平台上直接进行图像特征提取,通过移动终端拍摄的商品图像搜索互联网图像,返回相关网店链接并进行相关商品推荐。该系统对120万幅图片采用位置敏感哈希索引、存储和检索,既保证了结果在较小的误差范围内,也极大地降低了时间复杂度。最后用户可以根据推荐的链接进行选购。实验结果表明,该系统能够满足用户的需求,并且具有很强的实用性。 刘强强 余黎青 赵鹏 刘慧婷关键词:特征提取 图像检索 图像搜索引擎 爬虫系统 基于网络编码的无线网络多路径机会路由算法 被引量:5 2014年 提出了一个效用优化模型,以最大化整个网络的吞吐量,并在各个流之间均衡分配带宽资源。基于该模型,结合无线网络的广播特性和机会路由的思想,构造单播多路径路由,并应用网络编码简化数据调度。性能分析与仿真实验表明,算法在稠密网络及存在多个流的条件下,可以取得比同类协议更大的吞吐量、更低的网络整体开销和更合理的带宽资源的分配。 韩莉 钱焕延关键词:网络编码 机会路由 多路径 一般间隙与One-Off条件的序列模式匹配 被引量:3 2018年 带有间隙约束的模式匹配问题是序列模式挖掘的关键问题之一.目前,大多数的研究都为非负间隙,对字符串中每个字符的出现顺序有着严格的要求.为了增加匹配的灵活性,并且考虑到在序列模式挖掘中采用one-off条件更加合理,研究一般间隙与one-off条件下的模式匹配问题.该问题为NP-Hard问题.为了有效地求解该问题,提出了MSAING(maximum sequential pattern matching with one-off and general gaps condition)算法:首先,利用Reverse策略使模式与序列达到最佳的匹配状态;然后,使用线性表的结构使匹配过程中消耗的时间和空间大幅度地降低,同时,利用回溯机制提高匹配的成功率;最后,根据inside_Checking机制判断模式串是否会产生内部重复现象,以进一步提高算法的执行效率.理论证明了MSAING算法的完备性,实验结果验证了MSAING算法匹配结果的准确性以及在时间和空间方面的高效性. 刘慧婷 刘慧婷 黄厚柱 吴信东关键词:线性表 基于HowNet词汇相关性的文本聚类 被引量:4 2015年 提出基于HowNet词汇相关性的聚类方法,该方法通过统计学的Z分数来消除孤立点,根据文档的稀疏分布程度,选择初始聚类中心,并且考虑词与词的相关性和词与词的语义相似性,使得文本聚类的精确度得到了提升,时间消耗上也大大减少. 周爱武 汪贤惠 刘慧婷关键词:知网 Z分数 孤立点 聚类 基于卡方统计的情感文本分类 被引量:5 2017年 通过对情感文本与n-gram特征的研究与分析,提出了一种基于卡方统计的特征词提取方法.方法中,ngram特征作为文本特征,在传统卡方统计的基础上选取共现或单独出现的特征,因为共现与单独出现的特征在不同类别中可能存在区别性.然后,根据多元特征与类别的相关性判别去除n-gram中冗余的特征,从而选取高类别相关而低冗余的n-gram特征.对上述方法利用SVM算法在不同语料中进行测试,通过实验对比分析,验证了该方法的有效性. 周爱武 马那那 刘慧婷关键词:情感分析 N-GRAM 基于双层注意力机制的联合深度推荐模型 被引量:5 2020年 许多电子商务网站中存在用户编写的大量评论信息,大部分推荐系统虽然利用了评论信息,但仅从单词级别而不是评论级别来评估评论的重要性。如果只考虑评论中的重要单词,而忽略了真正有用的评论,则会降低推荐模型的性能。基于此,文中提出了一种基于双层注意力机制的联合深度推荐模型(DLALSTM)。该模型首先利用双向长短期记忆网络(BiLSTM)分别对用户和项目评论进行词以及评论级别联合建模,并通过两层注意力机制聚合为评论表示和用户/项目表示,然后把从评论中学习的用户和项目的潜在表示融入由评分矩阵得到的用户偏好和项目特征,实现评分预测。采用文中模型在Yelp和亚马逊的不同领域数据集上进行实验评估,并与常用的推荐方法进行比较,发现文中提出的模型性能超过目前常用的推荐方法,同时该模型能够缓解数据稀疏问题,且具有较好的可解释性。 刘慧婷 纪强 刘慧敏 赵鹏关键词:推荐系统