您的位置: 专家智库
>
资助详情>
国家自然科学基金(61003192)
国家自然科学基金(61003192)
- 作品数:8 被引量:45H指数:3
- 相关作者:马长林何婷婷司琪王梦涂新辉更多>>
- 相关机构:华中师范大学信阳农林学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金武汉市青年科技晨光计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文维基百科的结构化信息抽取及词语相关度计算
- 本文首先从中文维基百科官方所提供的基本数据中抽取整理出多种结构化信息;接着,对维基百科的知识组织形式进行了抽取架构,实现了一套开放的框架接口,方便了用户对这些信息的获取和使用;在此基础上,进行了词语间语义相关度计算的实验...
- 张红春何婷婷涂新辉周琨峰
- 关键词:语义相关度结构化信息
- 文献传递
- 评价主题挖掘及其倾向性识别被引量:5
- 2012年
- 主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性,进而根据特征词群统计出各主题的倾向性结果。最后通过对网络汽车评论文本语料的实验证实了该方法的有效性。
- 李芳何婷婷宋乐
- 关键词:LDA
- 基于LDA模型的文本聚类研究
- LDA(Latent Dirichlet Allocation)是近年来提出的一种具有文本主题表示能力的非监督学习模型。本文提出了一种基于LDA主题模型的文本聚类和聚簇描述方法。利用LDA模型挖掘隐藏在文本内的不同主题与...
- 董婧灵李芳何婷婷涂新辉万剑
- 关键词:主题模型LDA文本聚类
- 文献传递
- 中文维基百科的结构化信息抽取及词语相关度计算方法被引量:24
- 2012年
- 维基百科作为一个以开放和用户协作编辑为特点的Web 2.0知识库系统,具有知识面覆盖度广,结构化程度高,信息更新速度快等优点。然而,维基百科的官方仅提供一些半结构化的数据文件,很多有用的结构化信息和数据,并不能直接地获取和利用。因此,该文首先从这些数据文件中抽取整理出多种结构化信息;然后,对维基百科中的各种信息建立了对象模型,并提供了一套开放的应用程序接口,大大降低了利用维基百科信息的难度;最后,利用维基百科中获取的信息,该文提出了一种基于链接所对应主题页面所属类别的词语语义相关度计算方法。
- 涂新辉张红春周琨峰何婷婷
- 关键词:语义相关度结构化信息
- 文本分类中CTM模型的优化和可视化应用研究被引量:3
- 2017年
- 如何从海量文本中自动提取相关信息已成为巨大的技术挑战,文本分类作为解决该问题的重要方法已引起广大关注,而其中文本表示是影响分类效果的关键因素。为此采用相关主题模型进行文本表示,以保证信息完整同时表现主题相关性;基于该模型,对主题数目和特征提取实施了优化处理,综合复杂度和对数似然函数来确定最优主题数目,引入基于互信息的主成分分析算法进行最优特征提取,降低数据维度和特征冗余,使用R语言进行可视化实验分析。
- 马长林杨正良谢罗迪
- 关键词:文本分类特征提取
- 基于图分析方法和余弦相似性的主题检测研究被引量:3
- 2019年
- 如何从海量文本中自动提取有价值的主题信息已成为重要的技术挑战,当下的研究方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,将相关性理论与改进的图分析方法相结合,基于主题相关性和术语共现性对主题检测进行建模,高精度语义信息和潜在共现关系同时被用于主题检测,来发现重要且有意义的主题和趋势,仿真实验验证了本文模型的有效性。
- 马长林程梦丽王涛
- 关键词:主题检测
- 基于情感从属和最大熵模型的细粒度观点挖掘被引量:1
- 2015年
- 目前许多观点挖掘方法挖掘粒度过大,导致反馈信息不足。为解决该问题,对标准LDA模型进行改进,提出主题情感联合最大熵LDA模型进行细粒度观点挖掘。首先,考虑到词的位置和语义信息,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;其次,在主题层和单词层之间加入情感层,实现词语级别的细粒度情感分析,并引入情感转移变量来处理情感从属关系,同时获取整篇评论和每个主题的情感极性,实验验证了所提模型和理论的有效性。
- 马长林谢罗迪司琪王梦
- 关键词:LDA模型最大熵
- 基于主题情感混合模型的细粒度观点挖掘被引量:5
- 2015年
- 在对标准潜在狄利克雷分布(LDA)模型进行改进的基础上,提出了一个主题情感混合最大熵LDA模型对在线评论进行细粒度观点挖掘.首先,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;然后,在主题层和单词层之间加入情感层,将传统的LDA三层模型扩展成四层;最后,进行情感极性分析,同时获取整篇评论和每个主题的情感极性,生成细粒度的主题情感摘要.实验验证了所提模型和理论的有效性.
- 马长林谢罗迪王梦司琪
- 关键词:最大熵细粒度
- 基于CTM模型的观点挖掘和可视化被引量:3
- 2018年
- 如何从海量文本中自动提取有价值的观点信息已成为重要的技术挑战,当下的观点挖掘方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,在CTM模型的基础上提出了基于主题情感混合的主题相关模型,在考虑到主题相关性的同时,还分析了对应主题下的观点特征以及潜藏的情感倾向,更为精确地获取了文档主题的情感极性,仿真实验验证了本模型的有效性,并使用R语言进行了可视化实验分析。
- 马长林谢罗迪陈梦丽
- 关键词:可视化
- 基于领域识别的主题模型观点挖掘研究被引量:1
- 2019年
- 网络新媒体的快速发展,使得网上评论数据呈现爆炸性增长,面对数量庞大的网络文本,使用传统的人工方式来提取观点会导致效率低下、分类界限模糊、领域适应性差等问题。为解决以上问题,在对传统LDA模型进行改进的基础上,提出了一个基于领域判别的LDA主题模型来对在线评论进行观点挖掘。首先,在标准LDA模型中引入领域层,对语料库中的文档采样领域标签,利用领域化的参数来求解LDA模型;其次,考虑到句子间的情感从属关系,在主题层和单词层之间加入情感层,并引入情感转移变量进行表示,提高了情感极性分析的精度,实验结果表明了本文所提模型和理论的有效性。
- 马长林闵洁谢罗迪
- 关键词:LDA模型