国家自然科学基金(60473139)
- 作品数:13 被引量:89H指数:6
- 相关作者:郑家恒谭红叶张虎李荣卢娇丽更多>>
- 相关机构:山西大学忻州师范学院教育部更多>>
- 发文基金:国家自然科学基金山西省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 利用支持向量机实现动词-动词搭配的自动标注被引量:5
- 2005年
- 动词是中文信息处理的核心,是计算机对汉语进行分析和处理的基础。文章给出利用支持向量机法(SVM)进行动词-动词搭配的研究。首先构造训练特征库和学习特征库,然后利用高斯核函数将训练特征库中的样本映射为高维空间中的向量,使样本线性可分,求得超平面,最终实现SVM机的构造。通过对待测的1000句汉语句子应用SVM进行了动词搭配的自动识别分析,获得了开放测试抽取正确率为69.6%,召回率为67.8%的理想结果。
- 白妙青郑家恒
- 关键词:语料搭配支持向量机
- 规则与统计相结合的分词一致性检验被引量:7
- 2008年
- 建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量。
- 刘博郑家恒张虎
- 关键词:中文信息处理大规模语料库分词语料库加工
- 基于改进的隐马尔科夫模型的汉语词性标注被引量:12
- 2006年
- 基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系。还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型。实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果。
- 王敏郑家恒
- 关键词:中文信息处理词性标注隐马尔科夫模型未登录词
- 基于HMM的农作物信息抽取
- 本文以因特网(中国北方农业信息网等网站)上的种子资源作为语料资源,采用聚类的方法,生成训练语料,得到领域的主题集:通过训练主题和主题之间的关系,建立了针对水稻农作物的HMM模型。利用viterbi算法为未标注文本中的小句...
- 菅小艳郑家恒
- 关键词:主题信息抽取HMM
- 文献传递
- 基于分类的汉语语料库词性标注一致性检查被引量:4
- 2008年
- 制约语料库加工质量的一个重要方面是多标记词语的词性标注一致性问题。该文通过对大规模语料库兼类词的词性标注结果的分析,提出一种语料库词性标注一致性检查的方法,分析词性标记序列的特征并建立兼类词语境向量模型,运用k最近邻法,对兼类词语境进行向量分类,判定兼类词词性标注是否一致,得出每篇文章的词性标注的一致性情况,并测试了北京大学的150万语料。
- 张虎郑家恒
- 关键词:词性标注兼类词
- 交通工具名识别系统的设计与实现
- 交通工具名的正确识别对信息抽取、自动问答等信息处理任务意义重大,为了解决获取标注语料困难这个问题,本文实现了一种基于Bootstrapping的交通工具名识别方法,其特点是:(1)通过手工标记小部分语料逐渐学习得到大量标...
- 王振宇谭红叶郑家恒张虎
- 关键词:BOOTSTRAPPING相似度计算
- 文献传递
- 农作物信息抽取系统的设计与实现被引量:5
- 2006年
- 研究了特定领域的文本的信息抽取,主要考虑了文本分布的观点。首先从未标注的语料中学习主题和主题间的关系,然后把它应用在同领域的文本信息抽取。经测试,其信息抽取的效果有所提高。
- 郑家恒菅小艳
- 关键词:主题信息抽取聚类K近邻
- 一种基于实例学习的人名识别方法
- 人名识别是自然语言处理领域的一个重要的子任务。实例学习是机器学习中的一种常见的方法。本文在对大量语料的语言现象的统计与分析的基础上,提出了一种用实例描述语言现象,用相似度计算识别人名的方法。实验表明, 该方法具有一定的可...
- 朱丽丽郑家恒
- 关键词:人名识别相似度计算
- 文献传递
- 基于语料库的名词短语识别方法被引量:2
- 2007年
- 名词短语识别是自然语言处理领域的非常重要的子任务。利用最大熵法(ME)、支持向量机法(SVM)和隐马尔可夫模型(HMM)3种有代表性的统计方法对汉语文本进行名词短语识别,并对实验结果进行比较分析。结果表明HMM法在封闭测试中优势明显,SVM法在小样本模式的开放测试中表现良好,而最大熵方法在两种测试中的识别结果均比较理想。分析表明,HMM方法侧重应用在与线性序列相关的现象上;SVM方法适用于有限的汉语带标信息的分类问题;而最大熵方法特别适用于把不受限的文本特征加入统计模型中的情况。
- 李荣郑家恒
- 关键词:中文信息处理最大熵隐马尔可夫模型短语识别
- 汉语句法树库检索系统的设计与实现
- 2006年
- 句法树库是一项重要资源,它能为汉语语言研究和信息处理提供一个有利的数据平台。汉语句法树库检索的实现用到了流操作和GD I+图形操作。汉语句法库检索系统是基于句法树库的应用系统,提供了对句法树库的检索和统计,并且能够根据树库中的合法语句画出该语句的树状结构图,进而使用户对语句的句法结构有一个形象、直观的了解。
- 魏善德郑家恒
- 关键词:短语结构