孙丽华
- 作品数:6 被引量:38H指数:2
- 供职机构:北京拓尔思(TRS)信息技术有限公司更多>>
- 发文基金:北京市教委科技发展计划国家自然科学基金北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于规则的自动分类在文本分类中的应用被引量:31
- 2004年
- 文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 。
- 李渝勤孙丽华
- 关键词:计算机应用中文信息处理文本挖掘文本分类
- 规则分类在文本自动分类中的应用
- 本文简单介绍了三种较实用的文本自动分类技术,分析了自动分类的优势与不足。针对不足,引入规则分类,将规则分类与自动分类进行有效的结合,设计了混合分类器系统,从而获得了比较理想的分类效果。
- 孙丽华王洪俊肖诗斌施水才
- 关键词:K近邻支持向量机贝叶斯
- 基于向量空间模型的规则分类技术
- 本文探讨了一种基于向量空间模型的规则分类技术,其基本思想是:首先人工为每个类确定一组或n组关键词,并赋予一定的权重,每组关键词代表一条规则;分类器根据给定的每组关键词及权值信息形成规则向量,规则向量包括权值向量和距离向量...
- 孙丽华肖诗斌施水才
- 关键词:距离向量向量空间模型
- 文献传递
- 指标信息抽取技术的研究
- 本文研究了一种指标信息抽取技术。其基本思想是,首先人工建立指标知识库。然后,由文本分析器借助指标知识库分忻文本信息,形成指标向量。指标向量包括属性向量和数量词向量两部分。属性向量由属性词、位置、词频组成。数量词向量由数量...
- 肖诗斌孙丽华王弘尉施水才
- 关键词:关键词知识库信息抽取
- 文献传递
- 基于数字纸张的信息检索和数据挖掘技术被引量:7
- 2005年
- 随着数字纸张概念的提出和相关产业的日益发展,基于数字纸张的应用需求日益迫切,满足这些 应用的软件解决方案中的一个核心内容就是数字纸张的内容管理,其中最基本最核心的两项技术是信息检索 技术和数据挖掘技术,本文重点地阐述了这两项技术的最新应用成果。
- 施水才孙丽华
- 关键词:信息检索数据挖掘
- 基于向量空间模型的规则分类技术
- 本文探讨了一种基于向量空间模型的规则分类技术,其基本思想是:首先人工为每个类确定一组或n组关键词,并赋予一定的权重,每组关键词代表一条规则;分类器根据给定的每组关键词及权值信息形成规则向量,规则向量包括权值向量和距离向量...
- 孙丽华肖诗斌施水才
- 关键词:距离向量向量空间模型
- 文献传递