孙萌
- 作品数:8 被引量:18H指数:3
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 藏文数词识别与翻译被引量:7
- 2013年
- 通过对藏文数词内部构词规律及外部边界信息进行分析,提出对藏文数词基本构件定义的方案。采取最优路径决策模型判断数词构件边界,然后通过有限自动机模型识别并翻译基本数词,最后用模板匹配算法处理复杂数词。结果表明,提出的方法对数词识别与翻译的F值达到98.73%,在藏汉机器翻译的测试集上的BLEU提高了2.64%。
- 孙萌华却才让刘凯吕雅娟刘群
- 关键词:藏文自动机
- 基于判别式分类和重排序技术的藏文分词被引量:9
- 2014年
- 本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%。
- 孙萌华却才让才智杰姜文斌吕雅娟刘群
- 关键词:判别式藏文分词
- 基于最大熵短语重排序模型的特征抽取算法改进被引量:3
- 2011年
- 该文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法,提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡的问题,提高了翻译中短语重排序的准确率。以NIST MT 05作为汉语到英语翻译的测试集,实验结果表明改进后的系统BLEU值比原系统提高0.65%。
- 孙萌姚建民吕雅娟姜文斌刘群
- 关键词:最大熵特征抽取统计机器翻译
- 基于最大熵短语重排序模型的特征抽取算法改进
- 本文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法,提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡问题,即保序短语特征信息数量远超过...
- 孙萌姚建民吕雅娟刘群姜文斌
- 关键词:最大熵特征抽取统计机器翻译
- 文献传递
- 基于最大熵短语重排序模型的特征抽取算法改进
- 本文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法。提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡问题,即保序短语特征信息数量远超过...
- 孙萌姚建民吕雅娟刘群姜文斌
- 关键词:最大熵特征抽取统计机器翻译
- 文献传递
- 2011全国机器翻译研讨会计算所系统描述
- 本文介绍了中国科学院计算技术研究所自然语言处理研究组参加2011年全国机器翻译研讨会机器翻译评测的情况。今年我们参加了所有领域的九项评测任务。使用了基于语言学句法.基于形式句法、基于短语等三类统计翻译模型的单系统,以及基...
- 刘凯王志洋于惠孙萌宋林峰李佳正何晋一孟凡东刘洋吕雅娟刘群
- 关键词:机器翻译
- 文献传递
- 2011全国机器翻译研讨会计算所系统描述
- 本文介绍了中国科学院计算技术研究所自然语言处理研究组参加2011年全国机器翻译研讨会机器翻译评测的情况。今年我们参加了所有领域的九项评测任务。使用了基于语言学句法、基于形式句法、基于短语等三类统计翻译模型的单系统。以及基...
- 刘凯吕雅娟刘群王志洋于惠孙萌宋林峰李佳正何晋一孟凡东刘洋
- 关键词:机器翻译系统数据处理
- 基于平行语料库和网络的未登录词译文挖掘
- 2010年
- 分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。
- 孙萌梁颖红葛运东颜振祥姚建民
- 关键词:网络挖掘