国家自然科学基金(61363058)
- 作品数:39 被引量:108H指数:6
- 相关作者:李志欣马慧芳李宁张迪鲁小勇更多>>
- 相关机构:西北师范大学桂林电子科技大学广西师范大学更多>>
- 发文基金:国家自然科学基金甘肃省自然科学基金甘肃省中青年科技研究基金更多>>
- 相关领域:自动化与计算机技术理学文化科学更多>>
- 基于熵加权属性子空间的目标社区发现被引量:3
- 2019年
- 该文提出一种基于熵加权属性子空间的目标社区发现方法,挖掘与用户偏好相关的社区。首先,从属性和结构两个方面综合考虑节点间的相似度,利用用户给定的样例节点及其邻居扩展得到目标社区中心点集;其次,在中心点集上,设计一种熵加权的属性权重计算方法,得到目标社区的属性子空间权重;再次,利用目标社区的属性子空间权重,基于节点的属性和结构相似度重写网络中边的权重;最后,定义社区适度函数并结合重写后网络中边的权重改进社区适度函数,以中心节点集为核心,挖掘基于用户偏好的内部连接紧密且与外部分离较好目标社区。此外,该方法可以扩展到网络中多个社区发现及离群点检测任务中。在人工网络和真实网络数据集上的实验结果验证了该文所提算法的效率和有效性。
- 刘海姣马慧芳昌阳李志欣
- 关键词:用户偏好
- 基于多粒度语义分析的二进制漏洞搜索方法
- 2021年
- 二进制文件相似度检测旨在通过比较来自不同平台、编译器、优化配置甚至是不同软件版本的2个二进制文件的相似程度来判断二者是否高度相似,其中二进制漏洞搜索为其在信息安全领域的应用之一。二进制漏洞的产生为现代软件应用带来了诸多问题,如操作系统易受攻击、隐私信息易被窃取等。二进制漏洞产生的主要原因是软件开发过程中进行了代码复用却没有进行严格的监管。据此,提出了一种基于多粒度语义特征分析的二进制漏洞搜索方法Taurus,该方法通过3种粒度的语义特征来搜索跨平台的潜在二进制漏洞。给定待检测二进制文件和漏洞数据库,需要对其与漏洞数据库中的每个二进制漏洞进行逐一搜索。首先,分别对2个二进制文件进行语义提取,以获取二者在基本块、函数和模块3个粒度下的语义特征,并执行相似度计算;然后,整合3种粒度下语义特征的相似度,以计算3种文件的整体相似度得分;最后,将待检测二进制文件与漏洞数据库中所有漏洞的相似度得分结果进行降序排序,便获得了该二进制文件的搜索结果报告。经过合理配置下的实验对比,结果表明,Taurus方法在准确性方面要优于基线方法。
- 刘豪马慧芳龚楠闫彩瑞
- 关键词:跨平台
- 一种基于受限约束范围标签传播的半监督学习算法
- 2016年
- 为了提高文本分类性能,提出一种基于受限约束范围标签传播的半监督学习算法。首先利用相似性矩阵计算得出概率转移矩阵,进而通过概率转移矩阵得出受限约束范围;然后在约束范围内利用半监督学习框架下的标签传播算法计算基于路径的相似性,路径相似性决定了标签传播的重要路径。由于只使用几条重要的传播路径,使得算法中省去计算每一条路径的相似度,计算复杂度大大减少。最终使得标签在带标签数据与未标签数据之间通过几条重要的路径之间传播。实验已经证明此算法的有效性。
- 马慧芳袁媛张迪鲁小勇
- 关键词:半监督学习算法
- 融合语义与图结构的短文本特征提取算法被引量:6
- 2019年
- 针对现有的短文本特征提取算法未充分考虑词语间的隐含语义及图的结构特征,提出了一种融合语义与图结构的短文本特征提取算法,该方法首先根据词语的共现构建文本图;其次,利用词语间内外部语义耦合关系及文本图的结构特征分别计算词语间的相似度对文本图中的边加权;最后,设计了一种随机游走的方法将两种边的加权方案有效地综合起来进行迭代计算出节点的重要性,并降序排序取出前K项作为最终的文本集特征词项集合.中英文数据集上的实验证明了该方法可行且有效.
- 马慧芳刘晓倩马兰伍诗萌
- 关键词:图结构随机游走特征提取
- 融合社交信息的局部潜在空间推荐方法被引量:4
- 2021年
- 随着社交网络的发展,越来越多的研究利用社交信息来改进传统推荐算法的性能,然而现有的推荐算法大多忽略了用户兴趣的多样化,未考虑用户在不同社交维度中关心的层面不同,导致推荐质量较差。为了解决这个问题,提出了一种同时考虑全局潜在因子和不同子集特定潜在因子的推荐方法LSFS,使得推荐过程既考虑了用户共享偏好又考虑了用户在不同子集中的特定偏好。考虑到参与到不同社交维度的用户对不同的项目感兴趣,首先根据用户的社交关系将用户划分到不同的子集中;其次通过截断奇异值分解技术建模用户对项目的评分,其中全局潜在因子捕获用户共享的层面,而不同用户子集的特定潜在因子捕获用户关心的特定层面;最后,结合全局与局部潜在因子预测用户对未评分项目的评分。实验结果表明该方法可行且有效。
- 魏云鹤马慧芳姜彦斌宿云
- 基于谱图小波的多尺度社区搜索方法
- 2023年
- 作为可捕获用户个性化信息的网络分析任务,社区搜索旨在挖掘满足内聚性要求的查询节点所在的社区。大多数现有社区搜索方法仅能定位查询节点所在的单尺度社区。据此,设计了一种基于谱图小波的多尺度社区搜索方法,利用谱图小波和局部模块度挖掘查询节点所在的多尺度社区。具体地,首先,构建模块度矩阵和拉普拉斯矩阵并进行矩阵分解得到相关特征向量;其次,结合谱图理论和图小波,设计了基于谱图小波的尺度依赖局部模块度;再次,以归一化拉普拉斯矩阵和局部模块度张成的特征空间为支撑,设计了线性规划问题,以求解在给定尺度下与查询相关的稀疏指示向量;最后,利用社区边界截断策略不断添加节点,使得局部模块度最大。人工网络和真实网络上的实验结果表明了方法的高效率和有效性。
- 闫彩瑞马慧芳李青青
- 关键词:多尺度
- 基于核心词项平均划分相似度的短文本聚类算法
- 2017年
- 针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性,以此为基础对短文本中词项进行加权,将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集;以信息论为基础,将核心词项作为划分依据计算平均划分相似度,选择平均划分相似度值最大包含该核心词项的短文本形成一类,用此策略反复迭代直到满足要求。最后,实验结果表明,本文提出的方法显著地提高了短文本聚类的性能。
- 马慧芳朱志强成玉丹贾俊杰
- 融合相似用户影响效应的知识图谱推荐模型被引量:2
- 2023年
- 知识图谱(KG)具有丰富的结构化信息,能有效缓解推荐模型的稀疏性和冷启动问题,提升推荐系统的准确性与可解释性。近年来,融合知识图谱的端到端推荐模型成为技术趋势。提出了一种融合相似用户影响效应的知识图谱推荐模型,该模型在有效利用知识图谱的前提下,扩充了用户与项目之间的交互方式。首先,利用图神经网络邻域聚合策略与注意力机制,分别捕获用户与项目在知识图谱上的2种高阶表示;其次,根据相似用户的影响效应,设计影响力增强层,捕获相似用户影响效应的潜在表示;最后,将上述3种表示共同反馈到多层感知机中,输出预测分值。在真实数据集上的实验结果验证了所提模型的有效性和效率。
- 张若一金柳马慧芳王亦可李清风
- 关键词:知识图谱推荐系统
- 融合作者与文献影响力的科技论文推荐方法被引量:7
- 2021年
- 近年来,随着科技论文数量爆炸式增长,研究人员难以定位到感兴趣的科技论文,因此面向作者的科技论文推荐方法随之产生.传统的科技论文推荐方法没有充分考虑科研社交网络中作者与文献影响力等信息,无法为作者推荐高质量的科技论文.为此,本文提出了一种融合作者与文献影响力的科技论文推荐方法,在经典矩阵分解推荐方法基础上,融入作者与文献影响力等信息来进行科技论文的推荐.首先,在科研社交网络中对科技论文按主题聚类;其次,在每一个特定类别中计算作者与文献影响力;最后,增强作者和科技论文的矩阵分解,从而预测对作者的推荐情况.本文抓取了科研社交网络DBLP上的数据进行了实验,实验结果表明,与其它传统科技论文推荐方法相比,文中所提的方法在M_(AE)和E_(RMS)两个评价指标上都取得了较好的推荐结果,并且能够有效提升科研社交网络中科技论文推荐的准确性.
- 马慧芳胡东林刘宇航贺相春
- 关键词:科技论文聚类矩阵分解
- 基于通配符模式与随机游走的关键词提取方法
- 2020年
- 结合通配符模式与引入先验信息的随机游走算法,提出一种改进的关键词提取方法。使用通配符约束捕获词语之间的语义关系,提取满足间隙约束和一次性条件的顺序模式以计算模式支持度,并在模式支持度大于等于最小支持度阈值时建立节点关联图。将维基百科知识库中词语间的相似度作为先验信息,利用基于先验信息的PageRank算法在关联图上进行随机游走直至其排名分数趋于稳定,选取排名前Top K个词语作为关键词。实验结果表明,与TextRank、GraphSum算法相比,该方法具有更高的提取准确率及稳定性。
- 马慧芳李苗童海斌詹子俊
- 关键词:关键词提取随机游走PAGERANK算法