国家社会科学基金(12BYY045)
- 作品数:29 被引量:246H指数:9
- 相关作者:周咏梅阳爱民朱艳辉林江豪田海龙更多>>
- 相关机构:广东外语外贸大学湖南工业大学广东省电信规划设计院有限公司更多>>
- 发文基金:国家社会科学基金国家自然科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 适用于大规模文本处理的动态密度聚类算法被引量:10
- 2013年
- 针对传统的基于密度的聚类算法对海量数据处理时,存在参数输入复杂及时间复杂度高的问题,给出新的密度定义方法,并在此基础上提出一种只需一个简单输入参数就能动态识别密度不均匀聚类簇的聚类算法,同时将其扩充为可以处理海量数据的两阶段动态密度聚类算法。在人造数据集、大规模数据集以及中英文文本语料数据集上的实验表明,所提出的算法具有输入参数简单和聚类效率高的特点,可以应用于海量文本数据的聚类处理。
- 李霞蒋盛益张倩生朱靖
- 关键词:文本挖掘聚类海量数据
- 基于本体特征的汽车领域命名实体识别
- 2016年
- 针对汽车领域命名实体识别中汽车属性名识别的准确率和召回率较低的问题,提出了一种基于本体特征的汽车领域命名实体识别方法。通过扩展现有叙词表,基于叙词表构建汽车领域本体,提取语料中的本体特征,利用CRFs模型对汽车领域命名实体进行识别。实验结果表明,本体特征能够有效地识别出汽车属性实体,准确率、召回率和F值分别为75.60%,66.12%和70.54%。
- 张永平朱艳辉朱道杰王天吉李飞
- 关键词:命名实体识别汽车领域CRFS本体叙词表
- 基于平滑SO-PMI算法的微博情感词典构建方法研究被引量:10
- 2015年
- 对现有情感词典在微博情感分类中的适用性进行了分析,针对现有情感词典在微博中情感词覆盖度低的问题,整合现有情感词典资源,构建了一个微博基础情感词典,同时提出了一种基于拉普拉斯平滑的SO-PMI算法对微博基础情感词典中没有收录的情感词倾向性进行判断,最后利用微博情感词典与拉普拉斯平滑的SO-PMI算法对微博情感词典进行了构建,并对所构建微博情感词典的分类性能进行了实验。实验结果表明,该方法所构建的情感词典在微博情感分类中能达到较好的分类效果。
- 杜锐朱艳辉田海龙刘璟马进
- 关键词:情感词典情感分类
- 面向文本情感分析的中文情感词典构建方法被引量:41
- 2013年
- 提出了构建基于HowNet和SentiWordNet的中文情感词典方法。将词语自动分解为多个义元后计算其情感倾向强度,并且使用词典校对方法对词语情感倾向强度进行优化。将所构建词典应用到文本情感分析任务中,使用支持向量机构建文本情感分类器进行实验。实验结果表明,该词典优于一般极性情感词典,为情感分析研究提供了有效的词典资源。
- 周咏梅杨佳能阳爱民
- 关键词:情感词典支持向量机情感分析中文文本
- 基于种子词的微博表情符情感倾向判定方法被引量:5
- 2017年
- 情感倾向明显的表情符,容易通过人工进行标注。但是对于情感倾向不明显的表情符,多人手工的标注结果往往难以达成一致。因此,提出一种利用种子词自动判定表情符情感倾向的方法。该方法利用少量种子表情符自动标注情感倾向比较明显的表情符,生成表情符标注集;对于情感倾向不明显的表情符,利用种子情感词和已得到的表情符标注集构建模型,实现其情感倾向的自动判定。实验结果表明,本文方法在微博表情符情感倾向的自动判定上有很好的效果。
- 王伟周咏梅阳爱民林江豪陈昱宏曾文俊
- 关键词:情感分类
- 基于SVM的中文微博观点句识别算法被引量:7
- 2013年
- 针对中文微博中的海量文本,提出了利用领域观点词词典和支持向量机的方法对中文微博中的观点句进行识别。构建领域观点词词典,统计了表示中文微博观点句的5个特征,选取特征1,2,3,4进行观点句识别,并将基于支持向量机的3种不同特征组合识别算法与基于领域观点词词典的识别算法进行对比。算法对比结果表明,基于支持向量机的算法对微博观点句的识别效果较好,准确率68.75%,召回率48.71%,F值57.02%。
- 杜锐朱艳辉鲁琳王文华邓程喻魁兰
- 关键词:支持向量机
- 一种基于朴素贝叶斯的微博情感分类被引量:45
- 2012年
- 本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取。构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类。主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法。并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因。实验结果表明,二次特征提取方法在分类上取得更高的F1。实验最佳的分类预处理方式是"表情符号+标点符号+二次情感特征提取+BOOL值"。同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的。
- 林江豪阳爱民周咏梅陈锦蔡泽键
- 关键词:文本情感分类朴素贝叶斯
- 基于三支决策的中文微博观点句识别研究被引量:6
- 2014年
- 微博观点句识别是对微博进行观点挖掘和舆情分析的基础,因此观点句识别的准确率对后续研究工作至关重要。提出了一种基于三支决策的中文微博观点句识别方法,采用支持向量机分类器,sigmoid函数计算某条微博属于观点句的概率,并将基于三支决策的中文微博观点句识别方法与传统支持向量机方法进行对比实验,实验结果表明,基于三支决策的中文微博观点句识别方法取得了很好的识别效果。
- 田海龙朱艳辉梁韬马进刘璟
- 基于语义分析的中文微博情感分类方法被引量:23
- 2014年
- 通过分析微博的结构特点,提出了一种基于语义分析的中文微博情感分类方法。首先构建了表情符号情感词典和网络用语情感词典;然后结合词典资源对微博文本进行依存句法分析并且构建情感表达式树;最后根据制定的规则计算微博文本的情感强度,依据强度值判断微博的情感倾向类别。实验结果验证了该方法的有效性,也表明所构建的表情符号情感词典和网络用语情感词典能够有效增强情感分类器的性能。
- 杨佳能阳爱民周咏梅
- 关键词:情感分析依存句法分析表情符号网络用语
- 基于语义相似度的情感特征向量提取方法被引量:3
- 2017年
- 针对现有情感特征在语义表达和领域拓展等方面的不足,提出了一种基于语义相似度的情感特征向量提取方法。利用25万篇sogou新闻语料和50万条微博语料,训练得到Word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感近义词和反义词相似度分析、情感词极性分类和文本情感分析任务中,实验结果表明Senti2vec能实现情感词的语义表示和情感表示。基于大规模语料的语义相似计算,使得提取的情感特征更具有领域拓展性。
- 林江豪周咏梅周咏梅陈锦
- 关键词:语义相似度