国家自然科学基金(60872121)
- 作品数:5 被引量:67H指数:4
- 相关作者:宋柔修驰陈潇潇葛诗利蒋玉茹更多>>
- 相关机构:北京语言大学北京工业大学广东金融学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于隶属度的命名实体自动获取研究被引量:1
- 2012年
- 利用维基百科(Wikipedia)和已有命名实体资源,提出维基百科类的隶属度计算方法,通过匹配、计算、过滤、扩展、去噪五个步骤构建出具有较高质量和较大规模的命名实体实例集。在英语维基百科数据上进行实验,结果显示,基于隶属度方法自动获取的人名实例规模较DBpedia抽取出的人名实例规模高出近10倍,通过对不同隶属度区间的抽取实例进行人工检验,发现抽取出的前15000个维基百科类的准确率达到99%左右,能够有效支持命名实体类实例的扩充。
- 邢富坤
- 关键词:维基百科
- 基于无监督学习的专业领域分词歧义消解方法被引量:7
- 2013年
- 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
- 修驰宋柔
- 关键词:分词歧义互信息
- 大学英语作文自动评分研究中的问题及对策被引量:42
- 2009年
- 面向大学英语写作教学的自动作文评分研究存在四个难题:评分标准、针对性、通用性和人机界面的划分。自动评分要以人工评分为准,并结合写作教学理论;评分要考虑中国学生写作特点,使评价具有针对性;为了构建一次训练多次使用的通用评分模型,语言使用和内容需分别处理;作文评分必须有人参与,适当的人机界面能充分发挥机器和人的长处,使自动评分高效而准确。
- 葛诗利陈潇潇
- 关键词:大学英语写作教学自动作文评分
- SSD模型及其在词性标注中的应用
- 本文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95....
- 邢富坤宋柔罗智勇
- 关键词:HMM词性标注
- 文献传递
- 基于广义话题理论的话题句识别被引量:13
- 2012年
- 汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。
- 蒋玉茹宋柔
- 自动词性标注中语法因素和词汇因素对英汉语的不同影响
- 本文使用词性自动标注模型对影响英汉语词性标注的相关因素进行定量研究,进而探究词汇因素与语法因素各自对英汉语词性标注的影响,目的是为深入分析英汉语在词类问题上的差别,更好地构建汉语语料库提供参考依据。本文将词汇因素近似地形...
- 邢富坤宋柔
- 关键词:英汉对比隐马尔科夫模型马尔科夫模型
- 文献传递
- 基于“大词”实例的中文分词研究
- 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。本文尝试找到一种简单...
- 修驰宋柔
- 关键词:中文分词CRF分词歧义
- 文献传递
- 基于“固结词串”实例的中文分词研究被引量:5
- 2012年
- 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
- 修驰宋柔
- 关键词:中文分词CRF分词歧义