宇航
- 作品数:3 被引量:49H指数:3
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 汉语基本块标注系统的内部关系分析被引量:8
- 2009年
- 针对目前基本块分析主要侧重外部边界和句法标记识别的处理缺陷,提出了一种可以同时获得基本块的外部句法标记和内部关系描述的汉语基本块分析方法。首先通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,然后利用统计建模对句子中的每个词进行序列关系标注,最后通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,与使用经典的边界标记(IOB)模型进行基本块句法标注分析的方法相比,该方法在句法标记识别性能略有下降的情况下获得了很好的内部关系分析结果。
- 宇航周强
- 关键词:中文信息处理统计模型
- 基于条件随机场的古汉语自动断句与标点方法被引量:34
- 2009年
- 标点符号在现代汉语中扮演着重要的角色,但古代汉语中却不含有任何标点。这使得现代中国人阅读古代文献有严重的困难。该文提出一个基于条件随机场(CRF)的古汉语自动断句标点方法,并引入互信息和t测-试差两个统计量作为模型的特征。分别在《论语》与《史记》两个语料库上进行了充分实验,该方法在《论语》断句处理F 1分数上超出现有方法0.124,在《论语》标点和《史记》断句、标点处理上也取得了满意效果。实验证明:基于条件随机场的方法能较好解决古文自动标点处理问题;层叠条件随机场策略亦优于单层条件随机场策略。
- 张开旭夏云庆宇航
- 关键词:计算机信息处理
- 分层次的汉语功能块描述库构建分析被引量:9
- 2008年
- 现有功能块分析器对于不同长度和不同结构功能块的分析性能研究表明,长的结构复杂的功能块正是功能块自动分析的难点所在。由此,我们设计了新的分层次的功能块体系,并从清华句法树库TCT中自动生成了新的功能块语料库。通过对新的功能块语料库长度分布、内部结构分布分析,以及与单层次功能块语料库的相互关系的研究,我们证实了新的分层次功能块描述体系具有结构简单、长度短且分布均匀的优良特点。这些性质对功能块分析器的性能提高将会有很大的帮助。
- 陈亿周强宇航
- 关键词:计算机应用中文信息处理功能块