国家自然科学基金(60773167)
- 作品数:7 被引量:99H指数:5
- 相关作者:何婷婷闻彬王倩宋乐罗乐更多>>
- 相关机构:华中师范大学咸宁学院福建师范大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术一般工业技术更多>>
- 基于PMI-IR算法的Blog情感分类研究
- Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了一种基于PMI-IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本中的情感要索和背景情...
- 段秀婷何婷婷宋乐
- 关键词:中文信息处理情感分类互信息
- 文献传递
- 以关键词抽取为核心的文摘句选择策略被引量:10
- 2008年
- 针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。
- 马亮何婷婷李芳陈劲光邵伟
- 关键词:计算机应用中文信息处理多文档文摘关键词抽取
- 网络热点事件发现系统的设计被引量:35
- 2008年
- 该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用该系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。
- 刘星星何婷婷龚海军陈龙
- 关键词:计算机应用中文信息处理凝聚聚类
- 篇章连贯语义关系的自动标注方法被引量:5
- 2012年
- 为实现篇章连贯语义关系的判定与自动标注,提出一种综合运用关联词多种语法信息的自动标注方法。该方法利用关联词的词性分布规则排除非关联词,标注出潜在关联词,对比关联词库中的模式表,并综合利用搭配距离、搭配强度和句法位置获取合法的篇章连贯模式,在此基础上标注出其语义关系。通过实验验证了该方法的有效性。
- 姚双云胡金柱舒江波沈威
- 关键词:篇章连贯语义关系句法规则
- 一种面向查询的多文档自动文摘系统实现方法
- 针对面向查询的多文档自动文摘,本文提出了一种系统实现方法。首先通过对句子结构的分析发现,句子中某些成分并不能反映该句子的重要信息,提出在一定句子的修剪基础上,基于倒几率比的词权计算方法与改进的HAL语言模型方法,并应用于...
- 桂卓民何婷婷陈劲光李芳
- 关键词:自动文摘面向查询
- 文献传递
- 基于网络百科全书的中文关联语义知识获取
- 本文提出了一种用语义标签、语义指纹来表示关联语义知识的形式化方法,其中语义标签指代语义中的一个知识单元(也即概念),语义指纹是对语义标签所指代概念的描述,由语义标签的相关词语及其关联度共同组成。本文提出了一种从网络百科全...
- 杨柳何婷婷涂新辉
- 关键词:百科全书语义知识
- 文献传递
- 一种利用关键词提取的面向查询多文档文摘技术
- 针对面向查询的多文档自动文摘,本文提出了一种利用关键词提取技术的文摘句选择策略。通过计算多文档集中词语的查询相关性特征和语料相关性特征,并将词语的两个特征值进行特征融合得到每个词语的重要度,随后通过词语的重要度来给候选句...
- 马亮何婷婷陈劲光李芳邵伟
- 关键词:多文档文摘关键词提取
- 文献传递
- 一种基于维基百科知识库的中文文本分类方法研究
- 传统的文本表示方法是基于词条的向量表示方法(Bag of Words or BOW),文本信息中的每一个词条都被表示成该向量中的一个维度。尽管这样的表示方法简单而且常用,但是却难免会有一些限制,因为文本之间存在着复杂的潜...
- 苏小康何婷婷涂新辉何金卓
- 关键词:文本分类维基百科
- 文献传递
- 主题与子事件发现的多文档自动文摘被引量:1
- 2011年
- 提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。
- 王萌李春贵徐超何婷婷
- 关键词:多文档自动文摘逻辑回归模型
- 基于语义理解的文本情感分类方法研究被引量:43
- 2010年
- 文本情感分类方法在信息过滤、信息安全、信息推荐中都有广泛的应用。提出一种基于语义理解的文本情感分类方法,在情感词识别中引入了情感义原,通过赋予概念情感语义,重新定义概念的情感相似度,得到词语情感语义值。分析语义层副词的出现规律及其对文本倾向性判定的影响,实现了基于语义理解的文本情感分类。实验表明,该方法能有效地判定文本情感倾向性。
- 闻彬何婷婷罗乐宋乐王倩
- 关键词:文本情感分类语义理解