赵芳芳
- 作品数:3 被引量:15H指数:2
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向中文电子病历的词性标注技术研究
- 随着大数据时代的到来,“智慧医疗”已经成为全球医疗服务产业的发展趋势。作为医疗信息化的载体,电子病历蕴含大量的医疗健康知识。电子病历中的知识可以为医疗诊断、用户健康管理及医疗协调等领域提供服务。挖掘电子病历中的知识离不开...
- 赵芳芳
- 关键词:词性标注
- 文献传递
- 中文分词和词性标注联合模型综述被引量:1
- 2014年
- 中文分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究。由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行分词,然后使用分词阶段的结果进行词性标注。然而管道模式中,分词阶段的错误会传递到词性标注阶段,从而降低词性标注效果。近些年来,中文词性标注方面的研究集中在联合模型。联合模型同时完成句子的分词和词性标注任务,不但可以改善错误传递的问题,并且可以通过使用词性标注信息提高分词精度。联合模型分为基于字模型、基于词模型及混合模型。本文对联合模型的分类、训练算法及训练过程中的问题进行详细的阐述和讨论。
- 赵芳芳蒋志鹏关毅
- 关键词:中文分词
- 面向中文电子病历的词法语料标注研究被引量:9
- 2014年
- 针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
- 蒋志鹏赵芳芳关毅杨锦锋
- 关键词:词性标注