您的位置: 专家智库 > >

国家自然科学基金(60975077)

作品数:8 被引量:156H指数:4
相关作者:关毅杨锦锋蒋志鹏赵芳芳于秋滨更多>>
相关机构:哈尔滨工业大学哈尔滨医科大学附属第二医院哈尔滨医科大学附属第四医院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 8篇期刊文章
  • 2篇会议论文

领域

  • 10篇自动化与计算...

主题

  • 4篇中文
  • 3篇电子病历
  • 3篇病历
  • 2篇一致性
  • 2篇用户
  • 2篇语料
  • 2篇聚类
  • 2篇词性
  • 2篇词性标注
  • 1篇短文
  • 1篇一体化
  • 1篇依存句法分析
  • 1篇隐式
  • 1篇用户兴趣
  • 1篇用户兴趣建模
  • 1篇用户行为
  • 1篇有监督学习
  • 1篇语料库
  • 1篇语料库构建
  • 1篇日志

机构

  • 10篇哈尔滨工业大...
  • 2篇哈尔滨医科大...
  • 1篇哈尔滨医科大...

作者

  • 10篇关毅
  • 3篇杨锦锋
  • 3篇董喜双
  • 3篇蒋志鹏
  • 2篇赵芳芳
  • 1篇李清
  • 1篇于秋滨
  • 1篇张书娟
  • 1篇沈彤
  • 1篇宋博宇
  • 1篇赵永杰
  • 1篇林蝉
  • 1篇曲春燕
  • 1篇吕新波
  • 1篇刘雅欣

传媒

  • 5篇智能计算机与...
  • 2篇高技术通讯
  • 1篇自动化学报

年份

  • 2篇2015
  • 3篇2014
  • 2篇2013
  • 1篇2012
  • 1篇2011
  • 1篇2010
8 条 记 录,以下是 1-10
排序方式:
电子病历命名实体识别和实体关系抽取研究综述被引量:126
2014年
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展.本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法.本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源.最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.
杨锦锋于秋滨关毅蒋志鹏
关键词:电子病历命名实体识别实体关系抽取
中文情感词倾向消歧
文本情感倾向性分析的基础是词汇情感倾向分析,本文针对基于词典的词汇情感倾向性分析方法中对情感词倾向绝对化标注问题,提出了一种获取上下文相关的词汇情感倾向方法。同时针对目前缺少包含上下文相关情感词标注资源的问题,使用最大熵...
孙慧关毅董喜双
关键词:情感倾向最大熵消歧
文献传递
基于聚类的隐式用户兴趣建模被引量:1
2013年
随着Internet的迅速发展,人们必须面对信息爆炸的现实。描述了一种关键词向量的方式表达用户兴趣。将BIRCH聚类算法应用于用户访问的网络文档上来建立用户兴趣模型。基于Myspace用户日志,又实现了一个用户兴趣建模系统,该系统验证了提出方法的有效性。
吕新波关毅
关键词:用户兴趣建模BIRCH聚类
面向大规模日志数据的聚类算法研究被引量:6
2012年
针对大规模日志数据的聚类问题,提出了DBk-means算法。该算法使用Hadoop对原始日志数据进行预处理,并结合了k-means和DBSCAN聚类算法各自的优势。实验结果表明,相比k-means算法进行聚类分析,文中使用DBk-means算法进行聚类,能够取得更好的聚类效果,正确率可以达到83%以上。
李清沈彤关毅
关键词:聚类算法K-MEANS算法DBSCAN算法大规模数据
中文分词和词性标注联合模型综述被引量:1
2014年
中文分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究。由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行分词,然后使用分词阶段的结果进行词性标注。然而管道模式中,分词阶段的错误会传递到词性标注阶段,从而降低词性标注效果。近些年来,中文词性标注方面的研究集中在联合模型。联合模型同时完成句子的分词和词性标注任务,不但可以改善错误传递的问题,并且可以通过使用词性标注信息提高分词精度。联合模型分为基于字模型、基于词模型及混合模型。本文对联合模型的分类、训练算法及训练过程中的问题进行详细的阐述和讨论。
赵芳芳蒋志鹏关毅
关键词:中文分词
中文电子病历命名实体标注语料库构建被引量:19
2015年
针对中文电子病历命名实体语料标注空白的现状,研究了中文电子病历命名实体标注语料库的构建。参考2010年美国国家集成生物与临床信息学研究中心(1282)给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,而且采用预标注和正式标注的方法,建立了一定规模的中文电子病历命名实体标注语料库,其标注语料的一致性达到了92%以上。该工作对中文电子病历的命名实体识别及信息抽取研究提供了可靠的数据支持,对医疗知识挖掘也有重要意义。
曲春燕关毅杨锦锋赵永杰刘雅欣
关键词:标注语料库
基于有监督学习的依存句法分析模型综述被引量:2
2013年
针对基于有监督学习的依存句法分析模型的研究现状与进展进行了总结。重点综述了标注语料匮乏、特征选择与提取、模型一体化三个问题的相关研究内容。首先,详细介绍人们借助依存关系映射和主动学习摆脱标注语料匮乏困境的相关研究;其次,重点总结了不同特征对构建依存句法分析模型的贡献,例如句子级特征、词类别特征、语言形态特征和高阶特征等;最后,分析了依存句法分析模型一体化的优势与不足;此外,详细总结了如何借助该类模型解决事件抽取、产品评论分析和舆情分析等问题。
董喜双关毅
关键词:依存句法分析有监督学习
一种实体描述短文本相似度计算方法被引量:3
2015年
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。
秦添轶林蝉宋博宇关毅
关键词:文本分类文本相似度《知网》
基于电子商务用户行为的同义词识别
本文研究了电子商务领域同义词的自动识别问题。针对该领域新词多、错别字多、近义词多的用词特点,提出基于用户行为的同义词识别方法。首先通过并列关系符号切分商品标题和基于SimRank思想聚集查询两种方法获取候选集合,进而获取...
张书娟董喜双关毅
关键词:同义词识别用户行为SIMRANK
文献传递
面向中文电子病历的词法语料标注研究被引量:9
2014年
针对中文电子病历(CEMR)标注语料匮乏,目前面向中文电子病历的分词和词性标注研究仍处于空白阶段的实际情况,从中文电子病历语料的构建出发,提出了从数据预处理到语料标注的整体方案,获得了较高的标注一致性,为进行更大规模更高质量的病历语料标注工作提供了指导。通过实验量化中文电子病历与开放领域语料、英文电子病历语料的词法统计差异,系统地分析了通用标注模型在中文电子病历中的错误分布,为进行适用于中文电子病历分析的自然语言处理(NLP)技术研究奠定了基础。
蒋志鹏赵芳芳关毅杨锦锋
关键词:词性标注
共1页<1>
聚类工具0