公共文化服务平台

2024年12月23日星期一

|

欢迎来到海南省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家高技术研究发展计划(2006AA010109): 作品数：17 被引量：174H指数：7; 相关作者：陈家骏黄河燕张海军袁春风史树敏更多>>; 相关机构：南京大学中国科学院中国科学技术大学更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金国家社会科学基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

17篇期刊文章
4篇会议论文

领域

19篇自动化与计算...
2篇语言文字

主题

5篇中文
4篇相似度
4篇翻译
3篇登录
3篇信息处理
3篇人工智能
3篇中文信息
3篇中文信息处理
3篇未登录词
3篇句法
3篇句法分析
3篇机器翻译
3篇计算机
3篇计算机应用
2篇语料
2篇语义距离
2篇语义树
2篇域模型
2篇条件随机域
2篇条件随机域模...

机构

12篇南京大学
5篇中国科学院
4篇清华大学
3篇北京理工大学
3篇中国科学技术...
2篇江苏警官学院
1篇南京师范大学
1篇南京理工大学
1篇新疆师范大学

作者

7篇陈家骏
5篇黄河燕
4篇袁春风
4篇张海军
4篇陈群秀
4篇张亮
3篇戴新宇
3篇史树敏
2篇杜伟
2篇丁溪源
2篇戴播
2篇濮小佳
1篇朱朝勇
1篇黄亿华
1篇赵迎功
1篇黄书剑
1篇奚宁
1篇王树梅
1篇冯冲
1篇徐谦

传媒

8篇中文信息学报
2篇计算机应用与...
2篇计算机科学
1篇模式识别与人...
1篇广西师范大学...
1篇计算机应用研...
1篇小型微型计算...
1篇计算机技术与...

年份

1篇2012
2篇2011
7篇2010
7篇2009
1篇2008
3篇2007

共 17 条记录，以下是 1-10

全选清除导出

排序方式：

决策式中文依存句法分析模型的改进: 2009年; 决策式依存分析方法是一种以统计学习分类算法为基础,在每一个分析步骤中挑选最有可能的分析动作,由最终的动作序列确定分析结果。该方法具有快速、高效,易于实现的特点。然而,各步分析动作相对独立,并且容易造成错误累积。针对这些问题,对原始算法进行了一定的改进,引进了局部搜索算法和两阶段分析。实验表明,基于局部搜索的两阶段决策式依存分析模型,在性能上好于原始决策式依存分析方法,同时保持了较低的时间复杂度。; 马若策戴新宇陈家骏; 关键词：依存句法分析局部搜索

基于分词提取重复串的未登录词遗漏量化模型被引量：5: 2011年; 基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。; 张海军史树敏丁溪源黄河燕; 关键词：未登录词识别条件随机域模型中文分词

基于大规模语料划分的频繁模式查找算法被引量：1: 2012年; 频繁模式查找对新词识别、网络舆情监测、生物信息序列检测等领域有很高的应用价值。为处理规模远超出内存的语料,提出了一种实用的频繁模式查找算法。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间(MLCPI)来完成查找。另外在此基础上提出逐层归并算法,实现查找的同时归并子串。由于进行查找时无需将全部数据导入内存,因此资源消耗较少;各集合间频繁模式查找互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行了试验,结果表明其内存消耗小于30M,查找速度最快达1.08M/s,能高效地进行子串归并。; 丁溪源黄河燕张海军王树梅

一种基于共坐标上升算法的人名识别方法被引量：2: 2010年; 共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基础语料中获取特征库及成名概率词典,在训练语料上提取相应特征后,采用共坐标上升学习算法训练得到特征权重以及成名阈值参数,运用学习得到的各参数对普通文本中的中国人名进行识别。提出的方法无需对训练语料进行人工标注,在人名识别时也无需进行分词和词性标注处理,代价低、性能优良、有较好的实用性,在开放测试集上F1值达到93.02%。; 戴播毛奇袁春风; 关键词：人名识别

基于语义树的中文词语相似度计算与分析: 基于语义资源Hownet的词语相似度计算是近年来的研究热点,但大多数研究都是对中科院计算所刘群提出的计算方法的改进和完善。本文充分分析和利用新版Hownet(2007)的概念架构和语义多维表达形式,从概念的主类义原、主类...; 张亮尹存燕陈家骏; 关键词：语义树词语相似度语义距离; 文献传递

一种基于翻译记忆的汉日机器辅助翻译: 基于翻译记忆这一机器翻译技术,本文对比了 Trie 树、哈希表、后缀数组这三种比较常见的索引方式,并提出了一种基于哈希表和后缀数组的双重策略的翻译算法,并应用于汉日机器翻译系统中,同时提出了一种利用此技术进行机器辅助翻译...; 杜伟陈群秀; 关键词：翻译记忆后缀数组

一种应用组合特征的中文未登录词词性猜测研究被引量：4: 2010年; 未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值.; 张海军冯冲史树敏黄河燕; 关键词：中文分词未登录词条件随机域模型

一种基于随机森林的多视角文本分类方法被引量：9: 2009年; 基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。; 田宝明戴新宇陈家骏; 关键词：计算机应用中文信息处理文本分类向量空间模型

中文新词识别技术综述被引量：42: 2010年; 新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。; 张海军史树敏朱朝勇黄河燕; 关键词：新词识别未登录词

一种错误敏感的词对齐评价方法被引量：3: 2009年; 对齐错误率(Alignment Error Rate,AER)是目前通用的词对齐评价标准。近年来的研究表明,AER虽然在一定程度上能够反映词对齐的质量,但它与机器翻译最终结果BLEU得分的相关性并不好。该文针对基于短语的机器翻译系统(PBSMT)分析了AER可能存在的一些问题,并根据词对齐结果中存在的不同类型的错误,提出了一种错误敏感的词对齐评测方法ESAER(Error-Sensitive Alignment Error Rate)。实验表明,该文提出的ES-AER与BLEU的相关性要远远好于AER。; 黄书剑奚宁赵迎功戴新宇陈家骏; 关键词：人工智能机器翻译统计机器翻译词对齐 AER

全选清除导出

共3页<1 2 3>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@海南省图书馆 2014－2015 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张