万中英
- 作品数:29 被引量:100H指数:6
- 供职机构:江西师范大学计算机信息工程学院更多>>
- 发文基金:国家自然科学基金江西省自然科学基金江西省教育厅科学技术研究项目更多>>
- 相关领域:自动化与计算机技术水利工程天文地球理学更多>>
- 一种新的投影寻踪计算方法及在文本分类中的应用
- 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种何效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问...
- 万中英王明文廖海波
- 关键词:文本分类维数约简投影寻踪
- 文献传递
- 维数约简在网页分类中的应用
- 为了有效地组织Internet 网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题。本文介绍了主成分分析(Principle Comp...
- 万中英王明文廖海波左家莉
- 关键词:投影寻踪网页分类遗传算法
- 文献传递
- 免疫进化的投影寻踪模型在文本分类中的应用被引量:4
- 2011年
- 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。
- 廖海波万中英王明文
- 关键词:免疫进化算法投影寻踪文本分类
- 融合VAD知识的情感分布增强的细粒度情绪识别方法
- 本发明公开了融合VAD知识的情感分布增强的细粒度情绪识别方法,包括,将细粒度文本情绪数据集内的样本输入至语义信息模块,输出文本语义信息表征向量;将样本输入至情感分布信息模块,得到样本的情感分布并输入融合预测模块中的情感知...
- 李春阳付广成万中英刘邱云曾雪强
- 基于投影寻踪中文网页自动分类
- 如何对网上的文本信息进行分类,使Internet这个巨大分布式信息空间的无序状态有序化,已成为文本信息处理和计算机研究领域亟待解决的一个问题。 一般来说,由于文本集中的特征项可能多达数万个,那么把文本表示为向量形式时,特...
- 万中英
- 文献传递
- 专题型网页搜集系统的设计与实现被引量:2
- 2004年
- 近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。
- 胡卓颖徐可万中英陆玉昌丁树良
- 结合全局和局部信息的特征选择算法被引量:2
- 2016年
- 特征选择方法的优劣直接影响到文本分类的效果。传统的特征选择算法是以全局的方式来选取特征,这种方式忽视了局部特征对分类效果的影响,有时候甚至会导致很多训练文档没有特征。因此,在传统的特征选择方法主要考虑文档集全局特征的基础上,增加词对单篇文档的贡献率的考虑,并结合ALOFT方法,提出了一个结合全局和局部信息的特征选择算法(GLFS)。在路透社文档集及复旦文档集上的实验结果表明,本文提出的算法在保证每个文档都有特征词的同时提高了分类效果。最后讨论了对特征权重的确定方法,经过重新计算特征权重后分类效果有了较大的提高。
- 万中英王明文左家莉万剑怡
- 关键词:文本分类
- 维数约简在网页分类中的应用
- 为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Compo...
- 万中英王明文廖海波左家莉
- 关键词:投影寻踪网页分类遗传算法网页信息
- 文献传递
- Web挖掘中若干理论与算法研究
- 王明文罗远胜左家莉万中英王晓庆廖海波吴福英万剑怡
- 因特网正在把全球的信息资源连接起来,形成了人类有史以来所面对的最巨大的信息海洋。但这些信息在给人们带来丰富信息资源的同时,也使人们陷入了所谓的“信息灾难”。信息过载几乎成为人人需要面对的问题。Web挖掘是从因特网中获取感...
- 关键词:
- 关键词:因特网
- 模拟退火的投影寻踪模型在文本分类中的应用
- 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低...
- 廖海波万中英王明文
- 关键词:模拟退火投影寻踪文本分类
- 文献传递