您的位置: 专家智库 > >

国家自然科学基金(60872121)

作品数:5 被引量:67H指数:4
相关作者:宋柔修驰陈潇潇葛诗利蒋玉茹更多>>
相关机构:北京语言大学北京工业大学广东金融学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 5篇期刊文章
  • 3篇会议论文

领域

  • 6篇自动化与计算...
  • 2篇语言文字

主题

  • 3篇歧义
  • 3篇分词
  • 3篇分词歧义
  • 2篇中文
  • 2篇中文分词
  • 2篇分词研究
  • 2篇CRF
  • 1篇大学英语
  • 1篇隐马尔科夫模...
  • 1篇英汉
  • 1篇英汉对比
  • 1篇英汉语
  • 1篇英语
  • 1篇语法
  • 1篇语法因素
  • 1篇频次
  • 1篇自动作文评分
  • 1篇作文评分
  • 1篇维基百科
  • 1篇无监督学习

机构

  • 6篇北京语言大学
  • 4篇北京工业大学
  • 3篇中国人民解放...
  • 1篇广东金融学院
  • 1篇北京信息科技...
  • 1篇华南理工大学

作者

  • 5篇宋柔
  • 3篇修驰
  • 3篇邢富坤
  • 1篇葛诗利
  • 1篇陈潇潇
  • 1篇蒋玉茹

传媒

  • 2篇中文信息学报
  • 1篇计算机应用与...
  • 1篇计算机应用
  • 1篇山东外语教学
  • 1篇第十届全国计...

年份

  • 1篇2013
  • 3篇2012
  • 2篇2011
  • 2篇2009
5 条 记 录,以下是 1-8
排序方式:
基于隶属度的命名实体自动获取研究被引量:1
2012年
利用维基百科(Wikipedia)和已有命名实体资源,提出维基百科类的隶属度计算方法,通过匹配、计算、过滤、扩展、去噪五个步骤构建出具有较高质量和较大规模的命名实体实例集。在英语维基百科数据上进行实验,结果显示,基于隶属度方法自动获取的人名实例规模较DBpedia抽取出的人名实例规模高出近10倍,通过对不同隶属度区间的抽取实例进行人工检验,发现抽取出的前15000个维基百科类的准确率达到99%左右,能够有效支持命名实体类实例的扩充。
邢富坤
关键词:维基百科
基于无监督学习的专业领域分词歧义消解方法被引量:7
2013年
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
修驰宋柔
关键词:分词歧义互信息
大学英语作文自动评分研究中的问题及对策被引量:42
2009年
面向大学英语写作教学的自动作文评分研究存在四个难题:评分标准、针对性、通用性和人机界面的划分。自动评分要以人工评分为准,并结合写作教学理论;评分要考虑中国学生写作特点,使评价具有针对性;为了构建一次训练多次使用的通用评分模型,语言使用和内容需分别处理;作文评分必须有人参与,适当的人机界面能充分发挥机器和人的长处,使自动评分高效而准确。
葛诗利陈潇潇
关键词:大学英语写作教学自动作文评分
SSD模型及其在词性标注中的应用
本文提出了一种以符号解码与数值解码并举的SSD(Symbol-and-Statistics Decoding Model)模型,该模型被用于汉语词性标注任务,其标注正确率在封闭测试中达到97.08%,开放测试中达到95....
邢富坤宋柔罗智勇
关键词:HMM词性标注
文献传递
基于广义话题理论的话题句识别被引量:13
2012年
汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。
蒋玉茹宋柔
自动词性标注中语法因素和词汇因素对英汉语的不同影响
本文使用词性自动标注模型对影响英汉语词性标注的相关因素进行定量研究,进而探究词汇因素与语法因素各自对英汉语词性标注的影响,目的是为深入分析英汉语在词类问题上的差别,更好地构建汉语语料库提供参考依据。本文将词汇因素近似地形...
邢富坤宋柔
关键词:英汉对比隐马尔科夫模型马尔科夫模型
文献传递
基于“大词”实例的中文分词研究
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。本文尝试找到一种简单...
修驰宋柔
关键词:中文分词CRF分词歧义
文献传递
基于“固结词串”实例的中文分词研究被引量:5
2012年
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
修驰宋柔
关键词:中文分词CRF分词歧义
共1页<1>
聚类工具0