国家高技术研究发展计划(2002AA11401)
- 作品数:3 被引量:47H指数:3
- 相关作者:陈肇雄冯冲黄河燕王江伟张亮更多>>
- 相关机构:中国科学技术大学中国科学院南京理工大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Multigram语言模型的主动学习中文分词被引量:8
- 2006年
- 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
- 冯冲陈肇雄黄河燕关真珍
- 关键词:中文信息处理分词EM算法
- 采用主动学习策略的组织机构名识别被引量:18
- 2006年
- 组织机构名等命名实体的识别是信息抽取、机器翻译等任务的重要基础.为了克服识别器训练过程中对标注数据的依赖,本文提出了一种基于主动学习的训练策略,改进了基本的最大熵模型的解码算法和训练过程.实验表明采用主动学习策略的最大熵模型训练算法能够有效减少标注数据的使用.
- 冯冲陈肇雄黄河燕
- 关键词:命名实体识别最大熵模型
- 基于条件随机域的复杂最长名词短语识别被引量:22
- 2006年
- 识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性.
- 冯冲陈肇雄黄河燕张亮王江伟
- 关键词:条件随机域机器翻译