您的位置: 专家智库 > >

教育部“新世纪优秀人才支持计划”(NCET-06-0926)

作品数:11 被引量:110H指数:5
相关作者:王挺刘伍颖王戟陈火旺魏登萍更多>>
相关机构:国防科学技术大学更多>>
发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 11篇期刊文章
  • 4篇会议论文

领域

  • 15篇自动化与计算...
  • 1篇理学

主题

  • 6篇向量
  • 4篇信息处理
  • 4篇支持向量
  • 4篇支持向量机
  • 4篇中文
  • 4篇中文信息
  • 4篇中文信息处理
  • 4篇向量机
  • 4篇计算机
  • 4篇计算机应用
  • 2篇邮件
  • 2篇邮件过滤
  • 2篇索引
  • 2篇垃圾邮件
  • 2篇垃圾邮件过滤
  • 2篇关键词提取
  • 2篇本体
  • 2篇抽取
  • 1篇蛋白质相互作...
  • 1篇多向量

机构

  • 15篇国防科学技术...

作者

  • 15篇王挺
  • 5篇刘伍颖
  • 3篇王戟
  • 3篇罗准辰
  • 2篇张晓艳
  • 2篇陈火旺
  • 2篇魏登萍
  • 1篇陈耀东
  • 1篇刘培磊
  • 1篇赵修文
  • 1篇王之元
  • 1篇唐晋韬
  • 1篇李满生
  • 1篇周云
  • 1篇易绵竹

传媒

  • 4篇中文信息学报
  • 2篇计算机工程与...
  • 2篇软件学报
  • 1篇华中科技大学...
  • 1篇计算机工程
  • 1篇计算机科学

年份

  • 4篇2011
  • 3篇2010
  • 4篇2009
  • 4篇2008
11 条 记 录,以下是 1-10
排序方式:
基于本体的医疗信息搜索技术被引量:4
2009年
针对医疗信息联合搜索中存在的问题,提出一种基于医疗领域本体的多信息融合搜索方法。该方法采用信息抽取技术自动构建本体实例,运用医疗领域本体对用户查询请求进行语义处理,同时实现了基于该方法的原型系统。实验结果表明,该原型系统能有效返回多种相关信息,从而说明了本体在多信息融合搜索方面的重要性。
赵修文刘伍颖王挺
关键词:信息抽取搜索引擎
基于分离模型的中文关键词提取算法研究被引量:13
2009年
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。
罗准辰王挺
关键词:计算机应用中文信息处理关键词提取互信息
关键词提取中的分离模型和特征设计
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语,而这部分关键词的提取是十分困难的问题。本文提出将关键词提取分为两个问题进行处理:关键单词提取和关...
罗准辰刘伍颖王挺
关键词:关键词提取语言学知识
文献传递
集成学习和主动学习相结合的个性化垃圾邮件过滤被引量:4
2011年
本文提出了一种个性化垃圾邮件过滤方法,它能够根据用户反馈自动学习出用户兴趣,并随时间的推移自动适应用户兴趣的变化。该方法首先抽取邮件的语言特征和行为特征构建多个基于规则的单独过滤器,然后采用SVM集成学习方法组合这些单独过滤器的结果。为了提高学习速度、减少用户提供反馈的数量,本文采用了主动学习方法挑选更加富含知识的邮件请求用户给出反馈。实验结果表明:集成学习和主动学习相结合的个性化过滤方法在个性化程度、分类准确率、过滤速度以及自动学习能力等方面具有更好的性能。
刘伍颖王挺
关键词:垃圾邮件过滤个性化支持向量机
全词消歧的序列标注方法
全词消歧(All-Words Word Sense Disambiguation)本质上是一个序列标注问题,本文提出了两种用于全词消歧的序列标注方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,H...
周云王挺易绵竹王之元
关键词:隐马尔可夫模型
文献传递
搜索词同现网络研究
查询日志中的同现搜索词可以通过复杂网络进行刻画。本文基于Sougou用户查询日志语料,建立了搜索词的同现网络。由于搜索词中包含了大量的人名,同样也存在着人物搜索词同现网络。本文对搜索词同现网、人物搜索词同现网和语言的同现...
罗准辰王挺
关键词:查询日志小世界
文献传递
基于多向量和实体模糊匹配的话题关联识别被引量:6
2008年
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
张晓艳王挺陈火旺
关键词:计算机应用中文信息处理
基于多过滤器集成学习的在线垃圾邮件过滤被引量:5
2008年
垃圾邮件过滤就是在线对邮件做出Spam(垃圾)或Ham(非垃圾)的判断,这是一种根据客户反馈不断自学习的过程。本文抽取邮件的语言特征和行为特征构建多个简单过滤器,然后采用集成学习方法组合这些简单过滤器,获得了比简单过滤器更高的性能。实验表明单一特征学习的计算复杂性低、速度较快,而集成学习的效果更好。本文提出的将SVM集成学习用于邮件过滤的方法,在各种集成学习方法中效果最好。
刘伍颖王挺
关键词:计算机应用中文信息处理垃圾邮件过滤支持向量机
基于词模型索引的短文本在线过滤方法被引量:3
2010年
针对短文本的文本特点,提出一种基于词模型索引的短文本在线过滤方法.采用词模型索引存储已知类别的短文本.在线训练时,把新增加的语料增量更新到索引结构中;在线分类时,通过短文本中的词汇查询索引结构,检索出那些和当前短文本最相关的标注语料,用它们快速训练出的分类模型预测当前短文本.在真实手机短信过滤上的实验结果,说明本方法能够增强训练集的内容内聚性,使模型更加精细;集成多个精细模型的分类结果能够提高过滤性能.
刘伍颖王挺
关键词:文本分类
半监督学习和主动学习相结合的浅层语义分析被引量:18
2008年
语义分析是基于内容的文本挖掘领域的重要技术和研究难点。有监督机器学习方法受限于标注语料的规模,在小规模标注样本中难以获取较高性能。本文面向浅层语义分析任务,采用一种新颖的半监督学习方法——直推式支持向量机,并结合其训练特点提出了基于主动学习的样本优化策略。实验表明,本文提出的浅层语义分析方法通过整合主动学习与半监督学习,在小规模标注样本环境中取得了良好的学习效果。
陈耀东王挺陈火旺
关键词:计算机应用中文信息处理浅层语义分析半监督学习直推式支持向量机
共2页<12>
聚类工具0