肖桐 作品数:14 被引量:59 H指数:5 供职机构: 教育部 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 辽宁省自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 更多>>
基于Bootstrapping的领域多词串自动获取 在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器... 郑妍 肖桐 朱靖波关键词:文字处理 文献传递 面向人名消歧任务的人名识别系统 被引量:4 2011年 CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。 时迎超 王会珍 肖桐 胡明涵关键词:人名识别 人名消歧 系统整合 启发式规则 基于句对质量和覆盖度的统计机器翻译训练语料选取 本文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。本文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模... 姚树杰 肖桐 朱靖波关键词:覆盖度 统计机器翻译 文献传递 基于Bootstrapping的领域多词串自动获取 在构建领域知识库过程中,领域多词串比词携带了更多的语义信息,对于文本的主题分析和文本的内容分析明显的效果。本文首先利用C-Value方法从大规模无标注的真实语料中获取大量的多词串,然后采用Bootstrapping的机器... 郑妍 肖桐 朱靖波关键词:领域知识 BOOTSTRAPPING C-VALUE 文献传递 深度学习时代下的机器翻译 被引量:4 2018年 利用机器翻译打破现今语言交流的隔阂一直是机器学习领域的重要课题。机器翻译的研究历经基于语法规则、实例数据、统计方法的机器翻译时代,发展到现在,成为利用以编码解码为基本框架而设计的、利用神经网络对翻译过程建模的神经机器翻译。编码解码结构设计的诞生,不仅缓解了神经机器翻译的网络框架选择问题,还使翻译过程无需依赖隐藏结构. 肖桐 李垠桥 陈麒 陈麒关键词:机器翻译 翻译问题 稀缺资源机器翻译中改进的语料级和短语级中间语言方法研究 被引量:10 2017年 该文以英语作为中间语言的方式对在没有直接的外国语至汉语平行训练数据条件下构建统计机器翻译系统的问题进行研究.文中将基于中间语言的机器翻译方法分为系统级、语料级以及短语级中间语3种方法.在文中提出的改进的语料级中间语方法中,通过扩大生成训练数据的规模以及优化词对齐质量的方式来提高翻译系统的翻译性能.在传统的短语级中间语方法中,由于存在无法进行融合的中间语短语从而导致很多高质量短语对无法生成的问题,该文提出的改进方法通过解码生成的方式来扩大短语翻译表,继而提高翻译质量.该文系统地比较了3种中间语方法的优缺点,通过人工分析发现,任何一种方法无法在所有的翻译任务上取得最佳的翻译性能,故文中提出了语料级-短语级融合的中间语方法,该方法在所有翻译任务上取得了最优的翻译性能.最终,文中成功构建了孟加拉语、泰米尔语、乌兹别克语、匈牙利语至汉语的机器翻译系统.与基线系统相比,文中提出的方法在4种外国语的测试集上获得了0.8至2.8个BLEU点的上涨. 李强 王强 肖桐 朱靖波关键词:统计机器翻译 中间语言 面向统计机器翻译的重对齐方法研究 被引量:5 2010年 词对齐是统计机器翻译中的重要技术之一。该文提出了一种重对齐方法,它在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。此外,该文提出的方法还可以利用大规模单语语料来强化对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,该文提出的方法可以使统计机器翻译系统得到更高的翻译准确率。 肖桐 李天宁 陈如山 朱靖波 王会珍关键词:人工智能 机器翻译 统计机器翻译 词对齐 基于多阶段的中文人名消歧聚类技术的研究 人名消歧任务被很多的研究者看作为一个聚类任务,任务是将指向实际生活中同一个人的文档聚为同一个类。本文针对人名消歧任务提出一种新的文档聚类策略,该策略采用多阶段的聚类方式来对多个文档进行聚类,并对各种特征在每个阶段中对系统... 丁海波 肖桐 朱靖波关键词:人名消歧 聚类算法 文献传递 统计机器翻译删词问题研究 被引量:2 2014年 该文对基于短语的统计机器翻译模型的删词问题进行研究与分析,使用人工评价的方式将删词错误分为3类。该文通过两种方法,即基于频次的方法和基于词性标注的方法,对源语言句子中关键词汇进行识别。通过对传统的短语对抽取算法中引入源语言对空关键词汇的约束来缓解删词错误问题。自动评价方法以及人工评价方法证明,该方法在汉英翻译任务以及英汉翻译任务中显著的缓解了删词错误问题,同时得到一个精简的短语翻译表。 李强 何燕龙 栾爽 肖桐 朱靖波关键词:统计机器翻译 面向移进—归约句法分析器的单模型系统整合算法 被引量:5 2012年 该文提出了一种面向移进—归约句法分析器的单模型系统整合算法。在训练阶段,该方法通过调整训练数据的分布,来构建用于整合的多个移进—归约句法分析器。在解码阶段,该方法首先使用各个移进—归约句法分析器对待分析的句子进行句法分析,然后利用一个线性模型对各句法分析器输出的句法树进行评分,从中选出得分最高的句法树作为最终结果。该文中的实验是在宾州英文树库上进行的。实验结果表明,该文中的方法能够显著改善基准系统的性能。 马骥 朱慕华 肖桐 朱靖波关键词:句法分析 系统整合