丁德鑫
- 作品数:5 被引量:21H指数:2
- 供职机构:南京师范大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于CRF模型的组合型歧义消解研究被引量:9
- 2008年
- 组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型,以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年《人民日报》为语料,对常用的10个组合歧义字段进行消歧,平均消歧正确率达到96.35%,取得了良好的效果.实验表明,利用该模型能有效提高消歧正确率.
- 丁德鑫曲维光徐涛董宇
- 关键词:中文自动分词CRF
- 基于CRF模型的组合型歧义消解研究
- 组合型歧义切分是汉语自动分词的难点之一.为此,利用CRF(条件随机场)模型, 以歧义字段的上下文的词和词性建立特征模板,进行歧义消解研究.以1998年半年<人民日报>为语料,对常用的10个组合歧义字段进行消歧,平均消歧正...
- 丁德鑫曲维光徐涛董宇
- 关键词:中文自动分词CRF模型汉语自动分词条件随机场
- 文献传递
- 基于词频和语义信息的组合型歧义消解
- 组合型歧义切分是汉语自动分词的难点之一。本文挖掘歧义字段上下文的相对词频信息和语义信息,建立语境计算模型。首先基于相对词频比,建立RFRUM模型,其次采用类似K近邻的分类思想,利用知网,建立语义相似度计算模型,最后尝试两...
- 丁德鑫曲维光于丽丽陈小荷李惠
- 关键词:中文自动分词语境信息语义计算
- 文献传递
- 基于多分类器集成的古代汉语词义消歧
- 本文首先分析了古代汉语词义义项特点,考察了词义消歧的难点,确定出面向汉语信息处理的词语义项区分遵循的原则和方法。然后在现有的词义消歧理论基础上,采用机器学习的方法,选择合适的特征,使用高效率的NaiveBayes、RFR...
- 于丽丽丁德鑫曲维光陈小荷石民
- 关键词:中文信息处理古代汉语词义消歧分类器集成
- 文献传递
- 基于条件随机场的古汉语词义消歧研究被引量:13
- 2009年
- 首先分析了古汉语词义义项的分布情况与特点,考察了词义消歧的难点.然后在现有的词义消歧理论和方法的基础上,基于机器自动学习的统计模型条件随机场,选择上下文的词及其词性的复合特征,并加入其他适当语言学特征,设计6个不同的模板,对"将"、"如"、"我"、"信"、"闻"、"之"等古汉语高频词进行了词义消歧实验.实验最高平均F值达到了83.04%,高于最大熵、朴素贝叶斯模型,结果表明,选择合适的特征,条件随机场模型在古汉语词义消歧方面有效可行.
- 于丽丽丁德鑫曲维光陈小荷李惠
- 关键词:中文信息处理古汉语词义消歧条件随机场