南京师范大学语言信息科技研究中心
- 作品数:18 被引量:47H指数:4
- 相关机构:南京大学计算机科学与技术系计算机软件新技术国家重点实验室南京大学计算机科学与技术系华中科技大学外国语学院更多>>
- 发文基金:国家社会科学基金江苏省社会科学基金国家自然科学基金更多>>
- 相关领域:语言文字自动化与计算机技术更多>>
- 一种利用注疏的《左传》分词新方法被引量:19
- 2012年
- 先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去。
- 徐润华陈小荷
- 关键词:先秦文献自动对齐自动分词
- 普通话作为二语的节奏模式的实验研究被引量:1
- 2014年
- 节奏特征对于语音的自然度有直接影响。针对普通话语音,本文比较了普通话母语者、母语为粤语的二语学习者、母语为英语的二语学习者的节奏模式。研究从含有轻声的孤立词开始,重点考察连续语流,通过11种时长指标的测量从客观上分析节奏模式。针对连续语流的研究发现,基于语速无关的或者语速归一化的时长指标,作为二语的普通话显示出与母语普通话非常接近的节奏模式;而基于未做语速归一化处理的时长指标,作为二语的普通话则向重音节拍模式的方向迁移,与说话人母语的节奏模式无关。这一结果,与孤立词情形下的结果并不一致,也违反了母语迁移效应的一般假设,但是与我们的听感基本吻合,其原因可以用二语与母语的语速差异、以及韵律结构变化带来的停延频次的差异来解释。
- 顾文涛刘薛园廣瀬啓吉
- 关键词:节奏普通话粤语英语
- 兴化方言双域七调——调型格局和发声态演化被引量:3
- 2014年
- 本项研究旨在讨论兴化市区方言中的声调及其发声态特征。兴化方言的声调分为老派和新派,处于变化中,如假声消失、入声舒化而造成昂拱成分的三重鼎立等。老派有两个声域、七个调类,而新派只有单个声域、六个调类。由此,我们考虑一个新的分区方案,识别出一个‘边缘吴语’的区域。
- 章婷朱晓农
- 关键词:假声
- 先秦词汇的时代特征自动获取及文献时代的自动判定被引量:4
- 2013年
- 词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。
- 刘浏李斌李斌曲维光
- 关键词:向量空间模型朴素贝叶斯分类器
- 基于认知属性知识库的副名结构新探
- 程度副词修饰名词的特殊现象一直为汉语学界所重视,近年来程度副词提取名词的属性特征的说法被较多接受。然而名词的属性特征到底有哪些,始终存在着主观性差异和个例分析的状态。另一方面,很多具备属性特征的名词却很难进入副名结构,也...
- 李斌马燕刘雪扬唐旭日
- 关键词:副名结构语言知识库认知语义学
- 文献传递
- 基于词典的半指导学习古汉语全文词义标注
- 词义消歧是自然语言处理中的一项基础任务。本文针对先秦古汉语这特殊的语言材料,将WSD的过程分为先区分拼音后区分具体词义这两个步骤。实验过程使用了《汉语大词典2.0》为知识来源,《左传》为语料,采用了基于支持向量机(SVM...
- 张颖杰李斌陈家骏陈小荷
- 关键词:词义消歧古汉语自然语言处理
- 文献传递
- 基于CRF和转换错误驱动学习的浅层句法分析被引量:1
- 2011年
- 本文提出一种CRF和基于转换错误驱动相结合的中文浅层句法分析方法。该方法应用于宾州大学中文树库,取得不错的组块识别效果。在CRF识别的基础上,对初始识别结果中的组块标注信息进行统计分析,获得候选转换规则集合;再根据定义的规则评价函数对候选集进行筛选,得到最终的转换规则集合;最后应用转换规则集对CRF标注的结果进行校正。实验结果表明,与单独使用CRF结果相比,组块识别的精确率、召回率以及F值均得到了提高。
- 张芬曲维光赵红艳周俊生
- 关键词:浅层句法分析CRF
- 基于双语平行语料的中文缩略语提取方法被引量:2
- 2012年
- 汉语缩略语在现代汉语中被广泛使用,其研究对于中文信息处理有着重要地意义。该文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。首先对双语语料进行词对齐,再抽取出与词对齐信息一致的双语短语对,然后用SVM分类器提取出质量高的双语短语对,最后再从质量高的短语对集合中利用相同英文及少量汉语缩略—全称对应规则提取出汉语缩略语及全称语对。实验结果表明,利用平行语料的双语对译信息,自动提取出的缩略语具有较高地准确率,可以作为一种自动获取缩略语词典的有效方法。
- 刘友强李斌奚宁奚宁
- 关键词:缩略语平行语料库短语抽取
- 基于机器学习与语义知识的动词隐喻识别被引量:2
- 2011年
- 在自然语言中,动词的用法主要包含3种:字面、转喻和隐喻.动词的隐喻用法在隐喻的研究中占有重要的地位.动词的隐喻计算包含两个子任务:隐喻识别和隐喻理解.本文采用条件随机场、最大熵模型来识别动词的隐喻搭配,并在此基础上,加入了两种语义信:息《同义词词林》的同义词信息和《知网》的语义信息来识别动词的隐喻表达,实验识别正确率可达94.47%.
- 赵红艳曲维光张芬周俊生
- 关键词:知网同义词词林
- 基于双语平行语料的中文缩略语提取方法
- 汉语缩略语在现代汉语中被广泛使用,其相关研究对于中文信息处理有着重要的意义。本文提出了一种从英汉平行语料库中自动提取汉语缩略语的方法。我们首先对双语语料进行词对齐训练,利用训练得到的词对齐信息抽取出候选中英文短语对。然后...
- 刘友强李斌奚宁陈家骏
- 关键词:缩略语平行语料库短语抽取
- 文献传递