宋彦
- 作品数:4 被引量:35H指数:2
- 供职机构:香港城市大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于字依存树的中文词法-句法一体化分析
- 针对中文切分规范定义上的一些困难以及多层次处理的性能下降问题,本文提出了一种直接从字开始的依存关系表示用于中文的基本结构表示和分析。我们的分析表明,这一表示框架可以方便地用于建立一种词法-句法一体化的完整句子结构表示。通...
- 赵海揭春雨宋彦
- 关键词:依存分析
- 文献传递
- 中文CCG树库的构建被引量:12
- 2012年
- 组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。
- 宋彦黄昌宁揭春雨
- 关键词:树库
- 上古汉语分词及词性标注语料库的构建——以《淮南子》为范例被引量:23
- 2013年
- 该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分析了上古汉语的词汇特点,并以此为基础描述了一些显式的词汇形态特征,将其运用于我们的自动分词及词性标注中,特别对词性标注系统带来了有效帮助。总结并分析了自动分词和词性标注中出现的错误,最后描述了整个语料库的词汇和词性分布特点。提出的方法在《淮南子》的标注过程中得到了验证,为日后扩展到其他古汉语资源提供了参考。同时,基于该文工作得到的《淮南子》语料库也为日后的古汉语研究提供了有益的资源。
- 留金腾宋彦夏飞
- 关键词:分词词性标注
- 中文CCG树库的构建
- 组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂...
- 宋彦黄昌宁揭春雨
- 关键词:树库
- 文献传递