孙艳
- 作品数:16 被引量:107H指数:5
- 供职机构:中国人民解放军海军工程大学电子工程学院信息安全系更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术建筑科学更多>>
- 基于粗糙集与贝叶斯决策的不良网页过滤研究被引量:5
- 2012年
- 不良网页过滤是一种两类网页分类问题。提出了一种基于粗糙集与贝叶斯决策相结合的不良网页分类过滤方法,首先利用粗糙集理论的区分矩阵和区分函数得到网页分类决策的属性约简;然后通过贝叶斯决策理论对网页进行分类与过滤决策。仿真实验表明,该方法在不良网页分类过滤系统中开销小,过滤准确度高,因而在快速过滤不良网页的应用中具有工程应用价值。
- 孙艳周学广
- 关键词:信息安全网页过滤粗糙集区分矩阵贝叶斯决策
- 一种意会关键词信息取证技术
- 作为新型宣传媒介的网络舆情,存在大量经过恶意处理过的非法信息需要取证。为取证这些信息,提出意会关键词的概念和意会关键词信息取证技术,该技术首先对中文意会关键词进行了定义、分类和量化,然后提出了6个意会关键词提取算法,并对...
- 孙艳周学广
- 关键词:网络舆情
- 结合依存关联分析和规则统计分析的情感词库构建方法被引量:3
- 2013年
- 为了夯实自媒体时代的信息内容安全基础,本文把依存分析方法和传统的规则统计方法结合起来,构建了一个新型情感词库———钮库,与国内同行的情感新词识别公开评测结果比较,使用钮库辅助的本文方法表现优良,主要技术指标:微平均的准确率、召回率和F值,都在作者原有方法基础上提高了44%以上.
- 李勇敢周学广孙艳张焕国
- 关键词:中文信息处理信息内容安全依存分析
- 基于统计的词语相关度网络自动构建方法研究被引量:2
- 2012年
- 词语语义知识库对于扩大自然语言理解的深度具有重要的意义。目前较为成熟的WordNet、HowNet、同义词词林等均为人工开发,对知识的描述较为准确,但开发的工作量巨大,实际应用存在很多困难。为了更加自动化、实证性地获取中文词语相互关联状况的知识,该文提出词语相关度的概念以及基于统计的词语相关度计算方法,并以此为基础构建一个基于强领域特性中文词语的词语相关度网络,设计数组分割的硬盘存储方法,使该任务涉及到的海量数据的分析处理可以在目前的个人PC上完成。最终获得的词语语义知识具备经验主义方法的优点,准确性、泛化性较强,可以在文本分类、检索、过滤等领域发挥重要作用。
- 王洋周学广孙艳
- 关键词:语义词典
- 基于主题情感混合模型的无监督文本情感分析被引量:54
- 2013年
- 针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。
- 孙艳周学广付伟
- 关键词:主题模型LDA情感分析混合模型
- 基于依存连接权VSM的子话题检测与跟踪方法被引量:10
- 2013年
- 针对在新闻话题中报道突发、热点相似且子话题层次丰富的现象,依据增量TF-IDF值构造特征维,生成全局向量;然后在时间窗内生成特征连接权的局部邻接图,利用依存句法进行分析降维;最后采用领域词典加权,时间阈值衰减;从而构造出利用依存连接权VSM进行关联分析的子话题检测与跟踪(sTDT)计算方法。实验表明,利用依存关联分析使文本表示由线性变为平面结构,能够有效地提取描述子话题;在人工标注的测试语料下,其最小DET代价比经典方法至少降低2.2%。
- 周学广高飞孙艳
- 关键词:话题检测与跟踪向量空间模型
- 基于限定词典和词频统计的中文分词算法
- 限定词典背景下的中文分词有着较广阔的应用需求。根据限定词典词汇固定、词频统计精确、处理时效性要求高等实际情况,增加了词条的词性标注和歧义标注,提出并实现了基于限定词典和词频统计的中文分词算法。为了评价限定词典,提出了词典...
- 周学广高飞孙艳
- 关键词:词性标注词频统计语料库中文分词
- 基于依存关联分析的情感词扩展被引量:8
- 2012年
- 无扩展的情感词识别方法对于倾向容易发生演化的社区媒体信息的召回率很低.基于此,提出了一种基于依存关联分析的情感词扩展识别方法,首先对文本进行新词和短语发现;再对句子的依存树进行剪枝和归并;然后按照给定的策略进行情感词和评价对象的扩展;最后得到情感词扩展的识别结果.该方法能同时扩展具有直接依存关系和间接依存关系的情感词.实验结果表明该方法有效.
- 孙艳周学广付伟
- 关键词:依存分析舆情
- 基于关联规则和粗糙集的话题特征提取方法被引量:2
- 2012年
- 针对话题分类文本训练集少、主题相似度大的特点,提出一种基于关联规则和粗糙集的话题特征提取方法。在向量空间模型的基础上,采用挖掘关联规则的方式生成规则集与文本主体,通过调节事务主体的最小支持度与最小置信度查找不同颗粒层次的话题,利用粗糙集理论对词语特征与关联特征进行属性约简。实验结果表明,该方法能提取文本集中描述的评论主题,具有较高的话题分类准确率。
- 高飞周学广孙艳
- 关键词:关联规则粗糙集特征提取话题检测与跟踪向量空间模型属性约简
- 无监督的主题情感混合模型研究被引量:1
- 2013年
- 提出了一种基于LDA-Col模型的无监督主题情感混合(UTSU)模型。采用词序流对文本进行表示,对每个句子采样情感标签,对每个词采样主题标签,得到文本的主题情感分布。这种采样方式既符合语言的情感表达,又不会缩小词之间的主题联系,克服了ASUM模型和JST模型在同一层盘子中采样主题标签和情感标签的缺陷。实验表明,UTSU模型的情感分类性能比有监督的情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了3%,比JST模型提高了17%。
- 孙艳周学广付伟
- 关键词:文本情感分类无监督学习混合模型