您的位置: 专家智库 > >

国家高技术研究发展计划(2006AA010109)

作品数:17 被引量:174H指数:7
相关作者:陈家骏黄河燕张海军袁春风史树敏更多>>
相关机构:南京大学中国科学院中国科学技术大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家社会科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 17篇期刊文章
  • 4篇会议论文

领域

  • 19篇自动化与计算...
  • 2篇语言文字

主题

  • 5篇中文
  • 4篇相似度
  • 4篇翻译
  • 3篇登录
  • 3篇信息处理
  • 3篇人工智能
  • 3篇中文信息
  • 3篇中文信息处理
  • 3篇未登录词
  • 3篇句法
  • 3篇句法分析
  • 3篇机器翻译
  • 3篇计算机
  • 3篇计算机应用
  • 2篇语料
  • 2篇语义距离
  • 2篇语义树
  • 2篇域模型
  • 2篇条件随机域
  • 2篇条件随机域模...

机构

  • 12篇南京大学
  • 5篇中国科学院
  • 4篇清华大学
  • 3篇北京理工大学
  • 3篇中国科学技术...
  • 2篇江苏警官学院
  • 1篇南京师范大学
  • 1篇南京理工大学
  • 1篇新疆师范大学

作者

  • 7篇陈家骏
  • 5篇黄河燕
  • 4篇袁春风
  • 4篇张海军
  • 4篇陈群秀
  • 4篇张亮
  • 3篇戴新宇
  • 3篇史树敏
  • 2篇杜伟
  • 2篇丁溪源
  • 2篇戴播
  • 2篇濮小佳
  • 1篇朱朝勇
  • 1篇黄亿华
  • 1篇赵迎功
  • 1篇黄书剑
  • 1篇奚宁
  • 1篇王树梅
  • 1篇冯冲
  • 1篇徐谦

传媒

  • 8篇中文信息学报
  • 2篇计算机应用与...
  • 2篇计算机科学
  • 1篇模式识别与人...
  • 1篇广西师范大学...
  • 1篇计算机应用研...
  • 1篇小型微型计算...
  • 1篇计算机技术与...

年份

  • 1篇2012
  • 2篇2011
  • 7篇2010
  • 7篇2009
  • 1篇2008
  • 3篇2007
17 条 记 录,以下是 1-10
排序方式:
决策式中文依存句法分析模型的改进
2009年
决策式依存分析方法是一种以统计学习分类算法为基础,在每一个分析步骤中挑选最有可能的分析动作,由最终的动作序列确定分析结果。该方法具有快速、高效,易于实现的特点。然而,各步分析动作相对独立,并且容易造成错误累积。针对这些问题,对原始算法进行了一定的改进,引进了局部搜索算法和两阶段分析。实验表明,基于局部搜索的两阶段决策式依存分析模型,在性能上好于原始决策式依存分析方法,同时保持了较低的时间复杂度。
马若策戴新宇陈家骏
关键词:依存句法分析局部搜索
基于分词提取重复串的未登录词遗漏量化模型被引量:5
2011年
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。
张海军史树敏丁溪源黄河燕
关键词:未登录词识别条件随机域模型中文分词
基于大规模语料划分的频繁模式查找算法被引量:1
2012年
频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。
丁溪源黄河燕张海军王树梅
一种基于共坐标上升算法的人名识别方法被引量:2
2010年
共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基础语料中获取特征库及成名概率词典,在训练语料上提取相应特征后,采用共坐标上升学习算法训练得到特征权重以及成名阈值参数,运用学习得到的各参数对普通文本中的中国人名进行识别。提出的方法无需对训练语料进行人工标注,在人名识别时也无需进行分词和词性标注处理,代价低、性能优良、有较好的实用性,在开放测试集上F1值达到93.02%。
戴播毛奇袁春风
关键词:人名识别
基于语义树的中文词语相似度计算与分析
基于语义资源Hownet的词语相似度计算是近年来的研究热点,但大多数研究都是对中科院计算所刘群提出的计算方法的改进和完善。本文充分分析和利用新版Hownet(2007)的概念架构和语义多维表达形式,从概念的主类义原、主类...
张亮尹存燕陈家骏
关键词:语义树词语相似度语义距离
文献传递
一种基于翻译记忆的汉日机器辅助翻译
基于翻译记忆这一机器翻译技术,本文对比了 Trie 树、哈希表、后缀数组这三种比较常见的索引方式,并提出了一种基于哈希表和后缀数组的双重策略的翻译算法,并应用于汉日机器翻译系统中,同时提出了一种利用此技术进行机器辅助翻译...
杜伟陈群秀
关键词:翻译记忆后缀数组
一种应用组合特征的中文未登录词词性猜测研究被引量:4
2010年
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值.
张海军冯冲史树敏黄河燕
关键词:中文分词未登录词条件随机域模型
一种基于随机森林的多视角文本分类方法被引量:9
2009年
基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。
田宝明戴新宇陈家骏
关键词:计算机应用中文信息处理文本分类向量空间模型
中文新词识别技术综述被引量:42
2010年
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。
张海军史树敏朱朝勇黄河燕
关键词:新词识别未登录词
一种错误敏感的词对齐评价方法被引量:3
2009年
对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可能存在的一些问题,并根据词对齐结果中存在的不同类型的错误,提出了一种错误敏感的词对齐评测方法ESAER(Error-Sensitive Alignment Error Rate)。实验表明,该文提出的ES-AER与BLEU的相关性要远远好于AER。
黄书剑奚宁赵迎功戴新宇陈家骏
关键词:人工智能机器翻译统计机器翻译词对齐AER
共3页<123>
聚类工具0