黄德根
- 作品数:122 被引量:777H指数:17
- 供职机构:大连理工大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学医药卫生更多>>
- 最大生成树算法和决策式算法相结合的中文依存关系解析被引量:7
- 2012年
- 基于最大生成树解析算法和决策式解析算法的互补关系,提出了最大生成树解析算法和决策式解析算法相结合的中文依存关系解析方法。结合方法利用Nivre模型的依存关系解析结果和依存度修正最大生成树模型有向边的权重,再搜索最大生成树作为依存树。使用宾州中文树库中的4 500句语料作十折交叉测试,结合模型的依存关系正确率达到了86.49%。结果表明该文提出的结合方法有效地提高了的中文依存关系解析性能。
- 周惠巍黄德根高洁杨元生
- 一种基于多模态对比学习的多语言语音神经机器翻译方法
- 一种基于多模态对比学习的多语言语音神经机器翻译方法,利用多个双语翻译词典构建多语言翻译词典,在原始的语音识别数据基础上通过对文本中的词语进行随机替换的方式构建伪语音识别数据;在原始语音识别数据和构建的伪数据基础上,利用句...
- 黄德根刘俊鹏李玖一余浩
- 基于半监督隐马尔科夫模型的汉语词性标注研究被引量:7
- 2015年
- 提出一种基于词语相似度计算的半监督隐马尔科夫词性标注方法.首先,利用小规模的训练语料进行半监督隐马尔科夫学习,通过反复迭代不断扩充语料,增强隐马尔科夫的标注效果;然后,通过计算词语相似度的方法,给测试语料中每个未登录词都标上候选词性;最后,在隐马尔科夫标注时,不是选取一条最佳路径,而是选取两条最佳路径,通过二次选择,以此得到标注结果.实验结果证明,该方法与传统的隐马尔科夫标注方法相比提高了约2.60%,汉语词性标注准确率达到了95.65%.
- 韩霞黄德根
- 关键词:词性标注词语相似度
- 一种基于汉语简单名词短语的汉语最长名词短语识别方法
- 本发明属于人工智能的自然语言处理子领域,提供了一种基于汉语简单名词短语的汉语最长名词短语识别方法。包括如下步骤:S1数据预处理;S2选用SVM方法,训练汉语SNP识别模型,识别出汉语SNP;S3使用缩略替换方法简化文本,...
- 黄德根田雪
- 一种基于循环神经网络的中文人名识别方法
- 本发明提供了一种基于循环神经网络的中文人名识别方法,本发明包括:S1、语料预处理;S2、词向量训练,利用word2vec工具进行词向量训练;S3、中文人名识别模型训练,利用S1处理后得到的数据以及S2训练得到的词向量对神...
- 黄德根徐新峰
- 文献传递
- 基于AdaBoost.MH算法的汉语多义词消歧被引量:9
- 2006年
- 本文提出一种基于AdaBoost.MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost.MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost.MH算法获得了较高的开放测试正确率(85.75%)。
- 刘风成黄德根姜鹏
- 关键词:自然语言处理词义消歧多知识源
- 基于Bootstrapping的汉语词义消歧研究
- 提出一种基于 Bootstrapping 的汉语词义消歧模型。该模型采用贝叶斯分类器作为基本分类器,从小规模的词义标注语料出发,分类器通过对初始标注语料的学习来对未标语料判别义项,可信度高的句子加入标注语料集,这样不断提...
- 李丽双商敏黄德根周惠巍
- 关键词:词义消歧贝叶斯BOOTSTRAPPING
- EBMT中翻译模板的抽取与匹配
- 在EBMT(Example-BasedMachineTranslation)系统中将翻译实例泛化为翻译模板,可以有效的减少实例的存储空间,提高实例的检索效率,而实例匹配更是直接关系到了EBMT系统的翻译质量.本文提出了一...
- 张学黄德根
- 关键词:EBMT相似度计算
- 文献传递
- 汉语自动分词中中文地名识别被引量:16
- 2006年
- 以词语级的中文地名为识别对象,根据地名内部用字的统计信息和地名构成特点产生潜在地名.在汉语自动分词中将可信度较高的潜在地名等同于句子的候选切分词,利用候选切分词本身的可信度和上下文接续关系评价句子的各种切分方案.在确定句子最佳切分时识别句子中的中文地名.对真实语料进行封闭和开放测试,封闭测试结果为召回率93.55%,精确率94.14%,F-1值93.85%;开放测试结果为召回率91.27%,精确率73.48%,F-1值81.42%.取得了比较令人满意的结果.
- 高红黄德根杨元生
- 关键词:中文地名识别汉语自动分词未登录词识别
- 基于多模型融合的汉语介词短语识别
- 2017年
- 该文提出了一种多模型融合的介词短语识别方法,不仅能识别并列型介词短语,而且提高了嵌套型介词短语的识别精度。首先,利用简单名词短语识别模型识别出语料中的短语信息并进行融合,简化语料,降低介词短语内部复杂性;其次,用CRF模型识别嵌套的内层介词短语,即若存在嵌套则识别嵌套的内层,若无嵌套则识别该介词短语;最后,将初始语料中识别出来的内层介词短语进行分词融合并修改其特征信息,重新训练外层介词短语识别模型进行识别。在内外层介词短语自动识别后,利用双重错误校正系统对识别的介词短语进行校正。在2000年《人民日报》语料中的7 028个介词短语进行五倍交叉实验,结果表明,该方法识别的介词短语的正确率、召回率、F值分别为94.11%、94.02%、94.06%,比基于简单名词短语的介词短语识别方法(baseline)分别提高了1.09%、1.07%、1.08%,有效提高了介词短语识别的性能。
- 刘彤黄德根张聪