昝红英 作品数:132 被引量:533 H指数:11 供职机构: 郑州大学 更多>> 发文基金: 国家自然科学基金 国家社会科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 医药卫生 更多>>
基于统计和规则的常用词的兼类识别研究 被引量:4 2013年 词的兼类问题是汉语词性标注中的关键问题之一。针对常用词的兼类识别进行研究,综合考虑了影响兼类词识别的不同特征,分别使用条件随机场模型、最大熵模型和k最近邻等统计方法,根据兼类词本身的特点以及其在上下文句子中的关系,同时针对不同的方法采用词语信息、词性信息等不同的特征模板分别对训练语料进行特征抽取,并取得了较好的实验结果;对一些识别结果不够理想的词又尝试了规则的方法,构建兼类词的规则,不断进行测试,改进规则库,在相同的条件下,得到了优于统计方法的实验结果。 夏静 柴玉梅 昝红英关键词:中文信息处理 兼类词 条件随机场 最大熵 K近邻 中文症状知识库的建立与分析 被引量:9 2020年 构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8 772种症状,共计146 631条属性关系。所构建的症状知识库(CSKB)是中文医学知识图谱的重要组成部分,并为KBQA、知识推理及决策支持等应用提供了数据基础。 昝红英 韩杨超 范亚鑫 牛承志 张坤丽 牛承志汉语语气词用法的自动识别研究 被引量:5 2010年 研究现代汉语语气词用法的自动识别问题,从语气词的实际用法入手,构建语气词用法词典和语气词用法规则库,利用语气场构建语气词用法规则库。采用1998年1月的《人民日报》分词与词性标注语料,利用语气词用法规则库进行语气词的自动识别。实验结果证明,语气词的识别准确率为78.433%。 周溢辉 穆玲玲 昝红英 袁应成关键词:自然语言处理 语义场 基于开源框架的软件体系结构教学方法探索 被引量:3 2023年 针对软件体系结构课程内容抽象、落地难的问题,提出基于开源框架的“案例+开源+框架”教学法,引入产业界主流技术,选择实践性强、有案例支撑的内容进行教学,在架构分析与设计的基础上进一步考虑了架构在系统实现中的应用。以软件质量属性策略及软件架构风格为纲组织教学内容,二者在主题选择上具有很好的弹性,便于根据不同学时灵活剪裁。采用开源案例和公开教学资料,使学生在理解相关知识点的同时,具备基于源码分析软件体系结构的能力,也能掌握基于框架的构件式软件开发方法。学生评教结果显示,该教学法取得了较好的教学效果。 贾玉祥 昝红英关键词:软件体系结构 开源框架 多视图模型 副词“就”的用法及其自动识别研究 被引量:6 2010年 作者近年来从事现代汉语虚词知识库研究,并初步构建了包括副词、介词、连词、助词、语气词等的虚词用法词典、用法规则库以及用法语料库的"三位一体"现代汉语虚词知识库。该文在已有工作的基础上,进一步考察副词"就"在1998年1月《人民日报》分词与词性标注语料中的出现规律,通过规则描述、自动标注、人工校对、机器学习等方面的探索,研究副词"就"用法(包括义项)的形式化描述及其自动识别问题,并给出详细的实验结果。 昝红英 张军珲 朱学锋 俞士汶关键词:汉语虚词 条件随机场 最大熵 自动识别 中文多模态知识库构建 被引量:2 2022年 多模态融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。通过多模态信息的融合能获得更全面的特征并且提高模型鲁棒性,目前多模态融合技术已成为多模态领域核心研究课题之一。本文基于ImageNet、HowNet和CCD,通过人工标注构建了一个新的多模态知识库,已完成校准ImageNet中21455个名词及动词概念的映射,有效地将HowNet以及CCD中概念映射到ImageNet中。该数据集能够应用于自然语言处理任务和计算机视觉任务,并通过图片信息和概念信息提高任务效果。在图片分类中,通过增加HowNet和ImageNet概念能够融合更多的图片特征来辅助分类;在语义理解中,通过映射增加图片信息可以更好地理解语义。 晁睿 张坤丽 王佳佳 胡斌 张维聪 韩英杰 昝红英关键词:多模态融合 HOWNET CCD 助词“的”用法自动识别研究 被引量:3 2018年 在"三位一体"虚词用法知识库的基础上,分别采用基于规则、基于CRF模型和神经网络模型的门循环单元,对助词"的"用法进行自动识别,识别的准确率分别为34.4%,77.5%和81.3%。在对助词"的"用法进行分析的基础上,合并了部分用法,并采用CRF模型和神经网络模型进行粗粒度用法识别,准确率分别达到81.8%和84.5%,得到较明显的提高。期望识别结果可以应用于其他自然语言处理任务中。 刘秋慧 张坤丽 许鸿飞 俞士汶 昝红英关键词:CRF 中文药品知识库的研究与构建 被引量:2 2022年 分类体系完善、药品信息全面的药品知识库能够为临床决策以及临床合理用药提供依据和支持。该文以国内的多个医药资源作为参考和数据来源,建立了药品库知识描述体系和分类体系,对药品进行标准化分类并形成详细的知识描述,构建了多来源的中文药品知识库(Chinese Medicine Knowledge Base,CMKB)。所构建的CMKB的分类包括27种一级类别和119种二级类别,从药品的适应证、用法用量等多个层面对14141种药品进行描述并采用BiLSTM-CRF和T-BiLSTM-CRF模型将非结构化描述中的疾病实体进行了信息抽取,形成了对药品属性的结构化信息抽取,建立了药品实体与自动抽取的疾病实体之间的知识关联。所构建的CMKB能够与中文医学知识图谱进行连接,扩充药品信息,并能够为智能诊断和医疗问答等提供知识基础。 张坤丽 任晓辉 庄雷 庄雷 昝红英 穗志方关键词:知识关联 命名实体识别 儿科医学文本的中文分词及命名实体标注的语料库构建 医学文本中包含了大量与医疗相关的领域知识。本文从临床儿科疾病入手,参考目前已有的医学命名实体和实体关系标注体系,在医学领域专家的指导下,制定了面向儿科学的医学文本的中文分词和命名实体标注规范;利用自主开发的标注工具,以标... 昝红英 李雯昕 张坤丽 叶娅娟 常宝宝 穗志方中文医学知识图谱CMeKG构建初探 被引量:56 2019年 医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG 1.0(Chinese Medical Knowledge Graph)。CMeKG 1.0的构建参考了ICD-10、ATC、MeSH等权威的国际医学标准术语集以及规模庞大、多源异构的临床路径指南、临床实践、医学百科等资源,覆盖了疾病、药物和诊疗技术,包括100余万个医学概念关系的实例。该文综述了CMeKG 1.0构建过程中的描述体系、关键技术、构建流程以及医学知识描述等相关问题,希望为医学领域知识图谱的构建与应用提供一些参考。 奥德玛 杨云飞 穗志方 代达劢 常宝宝 常宝宝 昝红英关键词:知识图谱 知识提取