搜索到120篇“ 期望交叉熵“的相关文章
- 基于信息熵的期望交叉熵特征选择文本分类系统及方法
- 本发明公开了一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。本发明系统包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语...
- 吴国华王刘阳张祯王玉娟
- 文献传递
- 基于信息熵的期望交叉熵特征选择文本分类系统及方法
- 本发明公开了一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。本发明系统包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语...
- 吴国华王刘阳张祯王玉娟
- 基于特征选择和词向量加权的新闻话题检测研究
- 话题检测是处理互联网新闻数据的一种重要方法。主要任务是从新闻数据中自动检测和组织潜在的话题信息,对网络中分散的信息进行有效地汇集和整理,帮助人们从众多数据中发现未知话题事件,使人们能够从整体上了解该事件的详细内容,有效解...
- 孔丽娜
- 关键词:文本信息K-MEANS算法期望交叉熵
- 基于改进CHI和带权ECE结合的特征选择方法被引量:4
- 2019年
- 针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F1值均优于CHI、ECE及pCHI、ωECE方法,且该方法的降维稳定性更好。
- 蔡镇高健秦晓军
- 关键词:期望交叉熵文本分类
- 融合词语共现距离和类别信息的短文本特征提取方法被引量:2
- 2018年
- 针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。
- 马慧芳邢玉莹王双张旭鹏
- 关键词:期望交叉熵特征提取
- 基于背景重构与边缘相关短文本特征选择方法被引量:1
- 2016年
- 为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终的特征集.过程可分为2个阶段:1)基于词矢量语义量化模型计算特征词的背景相关性;2)将测试文本重组特征空间,并进行边缘性相关计算.提出的短文本特征选择方法,可以在保持原始特征空间性质与结构的前提下,强化特征空间紧凑性,减少冗余性,降低特征维度.在Reuters-21578和NewsGroup标准语料集上的实验证明,提出的方法比传统的文档频率、信息增益、互信息等方法更有效,针对两个标准的数据集,其在典型的分类器上运行表现强于一般特征选择方法.
- 张海涛王斌君王靖亚
- 关键词:期望交叉熵
- 用于中文文本分类的基于类别区分词的特征选择方法被引量:8
- 2013年
- 特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验证了该方法的有效性。
- 周奇年张振浩徐登彩
- 关键词:文本分类信息增益互信息期望交叉熵
- 基于特征选择的实体关系抽取被引量:9
- 2012年
- 提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。
- 毛小丽何中市邢欣来刘莉
- 关键词:关系抽取信息增益期望交叉熵
- 中文文本自动分类中的特征选择改进与研究
- 2012年
- 特征选择是中文文本分类过程中的一个关键环节,文本特征项选择的优劣将直接影响文本分类的准确率。针对传统的特征选择算法没有考虑到特征项的类别区分度在特征选择中的作用而丧失了一些优秀的特征项的问题,文中通过引入特征项的类别区分度对传统的特征选择算法进行改进。实验结果表明,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。
- 张振浩周奇年杨继慧徐登彩
- 关键词:中文文本自动分类互信息期望交叉熵
- 垃圾博客检测及相关技术的研究
- 近年来随着internet技术的发展,博客(Web blog)通过为作者和读者之间提供交互式交流平台和动态更新的社会网络而成为极受欢迎的一种新媒体的社会沟通机制。据调查科学研究、统计调查、公共建设、教育、社会福利等研究领...
- 尹明飞
- 关键词:期望交叉熵
- 文献传递
相关作者
- 张振浩

- 作品数:5被引量:24H指数:3
- 供职机构:浙江理工大学信息电子学院
- 研究主题:互信息 期望交叉熵 中文文本自动分类 海量数据存储 物联网环境
- 徐登彩

- 作品数:4被引量:16H指数:3
- 供职机构:浙江理工大学信息电子学院
- 研究主题:互信息 无线传感网络 期望交叉熵 信息增益 文本分类
- 周奇年

- 作品数:24被引量:59H指数:5
- 供职机构:浙江理工大学信息电子学院
- 研究主题:程序设计 数字图书馆 云计算 高教园区 数据管理
- 刘莉

- 作品数:5被引量:33H指数:3
- 供职机构:重庆大学计算机学院
- 研究主题:特征向量 语义角色 中文 条件随机场 关系抽取
- 王斌君

- 作品数:89被引量:312H指数:10
- 供职机构:中国人民公安大学
- 研究主题:面向对象 PETRI网 软件工程 网络 信息化