您的位置: 专家智库 > >

高悦

作品数:4 被引量:39H指数:4
供职机构:四川大学计算机学院更多>>
发文基金:国家自然科学基金国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇LDA
  • 1篇多数据源
  • 1篇语言
  • 1篇数据源
  • 1篇中英文
  • 1篇文本处理
  • 1篇文本聚类
  • 1篇文本聚类算法
  • 1篇聚类
  • 1篇聚类算法
  • 1篇跨语言
  • 1篇混合模型
  • 1篇共现
  • 1篇TF-IDF
  • 1篇LDA模型
  • 1篇ICE

机构

  • 4篇四川大学
  • 1篇中华人民共和...

作者

  • 4篇高悦
  • 3篇陈兴蜀
  • 2篇王文贤
  • 2篇王海舟
  • 1篇杜敏
  • 1篇罗梁
  • 1篇杨淑贤
  • 1篇何建云
  • 1篇江浩

传媒

  • 2篇工程科学与技...
  • 1篇华南理工大学...
  • 1篇信息网络安全

年份

  • 1篇2018
  • 1篇2017
  • 1篇2016
  • 1篇2015
4 条 记 录,以下是 1-4
排序方式:
基于ICE-LDA模型的中英文跨语言话题发现研究被引量:7
2017年
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。
陈兴蜀罗梁王海舟王文贤高悦
基于改进的ccLDA多数据源热点话题检测模型被引量:4
2018年
目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA)。该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景。在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析。实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力。最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现。
陈兴蜀陈兴蜀王文贤高悦高悦
关键词:LDA多数据源
基于OLDA的热点话题演化跟踪模型被引量:18
2016年
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪.
陈兴蜀高悦江浩杜敏王海舟何建云
关键词:文本处理
一种基于狄利克雷过程混合模型的文本聚类算法被引量:10
2015年
随着互联网的普及,论坛、微博、微信等新媒体已经成为人们获取和发布信息的重要渠道,而网络中的这些文本数据,由于文本数目和内容的不确定性,给网络舆情聚类分析工作带来了很大的挑战。在文本聚类分析中,选择合适的聚类数目一直是一个难点。文章提出了一种基于狄利克雷过程混合模型的文本聚类算法,该算法基于非参数贝叶斯框架,可以将有限混合模型扩展成无限混合分量的混合模型,使用狄利克雷过程中的中国餐馆过程构造方式,实现了基于中国餐馆过程的狄利克雷混合模型,然后采用吉布斯采样算法近似求解模型,能够在不断的迭代过程中确定文本的聚类数目。实验结果表明,文章提出的聚类算法,和经典的K-means聚类算法相比,不仅能更好的动态确定文本主题聚类数目,而且该算法的聚类质量(纯度、F-score和轮廓系数)明显好于K-means聚类算法。
高悦王文贤杨淑贤
关键词:文本聚类
共1页<1>
聚类工具0