修驰
- 作品数:6 被引量:20H指数:3
- 供职机构:北京工业大学计算机学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 适应于不同领域的中文分词方法研究与实现
- 近几年随着自然语言处理应用的发展,专业领域中文分词的需求越来越大。由于专业领域语料资源较少,很多实验无法进行。大部分中文分词方法在专业领域上都不能获得很好的分词效果,不能满足实际应用的需求。针对专业领域中文分词的研究较少...
- 修驰
- 关键词:相对适合度无监督学习
- 基于无监督学习的专业领域分词歧义消解方法被引量:7
- 2013年
- 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
- 修驰宋柔
- 关键词:分词歧义互信息
- 语料库自然标注信息与中文分词应用研究(英文)被引量:2
- 2013年
- 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
- 饶高琦修驰荀恩东
- 关键词:中文分词大规模语料库
- 基于“固结词串”实例的中文分词研究被引量:5
- 2012年
- 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
- 修驰宋柔
- 关键词:中文分词CRF分词歧义
- 统计机器翻译语料预处理中的问题研究
- 目前,统计机器翻译成为机器翻译研究热点,统计机器翻译以大规模双语语料作为训练素材,采用参数训练方法得到翻译模型。为了提高翻译效果,人们尝试对统计机器翻译的各个步骤进行改进。仅语料预处理就包含很多值得研究的问题。本论文就其...
- 修驰
- 关键词:统计机器翻译预处理分词词对齐
- 文献传递
- 基于“大词”实例的中文分词研究
- 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。本文尝试找到一种简单...
- 修驰宋柔
- 关键词:中文分词CRF分词歧义
- 文献传递