何军 作品数:29 被引量:156 H指数:5 供职机构: 中国人民大学信息学院 更多>> 发文基金: 国家自然科学基金 北京市自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 政治法律 经济管理 更多>>
兴趣标签生成方法 本发明提供一种兴趣标签生成方法,该方法包括:构建实体与用户之间的二部图,为实体确定初始标签集,根据实体的初始标签集及实体与用户之间的兴趣行为数据,确定实体对用户的兴趣的影响权重,然后采用双向约束主题模型,模拟生成用户感兴... 刘红岩 何军 杜小勇 何威文献传递 多关系离散化方法 2010年 为了从多关系数据库中挖掘知识,需要对连续取值的属性进行离散化。已有离散化方法都是针对单表设计,不能直接用于多关系环境。基于信息熵和最小描述长度原理,该文提出3种多关系离散化方法,分别为对表关系图的广度遍历方法(MRD_Breadth)、对表关系图的深度遍历方法(MDR_Depth)和选择较优路径的贪婪算法(MDR_Greedy),实现了不同的类别传递和离散化方法选择策略。实验结果表明这些方法可以提高分类算法的效率和准确度。 何军 谢冶博 刘红岩 顾应钦 杜小勇关键词:离散化 信息熵 一种限高装置高度检测方法和系统 本发明属于视频目标识别技术领域,涉及一种限高装置高度检测方法和系统,包括:将若干个双目视频采集装置设置在同一高度,通过双目视频采集装置采集视频图像;提取视频图像中限高装置的边界框;提取边界框中角点或边缘点,并将角点或边缘... 何军 范肇心 赵可馨 张敏 潘宇青带有覆盖率机制的文本摘要模型研究 被引量:8 2019年 近年来文本信息出现了爆炸式增长,人们没有足够的精力去阅读这些文本,因此如何自动地从文本中提取关键信息就显得尤为重要,而文本摘要技术可以很好地解决这个问题。目前的文本摘要技术主要是利用带有注意力(attention)机制的序列到序列模型(sequence to sequence)对文本生成摘要,但是注意力机制在每个时刻的计算是独立的,没有考虑到之前时刻生成的文本信息,导致模型在生成文本时忽略了之前生成的内容,导致重复生成部分信息。针对这一问题,在文本摘要模型中引入了一种新的覆盖率(coverage)机制,通过覆盖向量记录历史时刻的注意力权重分布信息,并用来改变当前时刻注意力机制的权重分布,使模型更多地关注没有利用到的信息。改进后的模型在新浪微博数据集上进行了实验,实验结果表明,基于新提出的覆盖率机制的文本摘要模型的准确度高于普通的序列到序列模型。 巩轶凡 刘红岩 何军 岳永姣 杜小勇关键词:文本摘要 循环神经网络 数据仓库技术的新进展 被引量:1 1995年 一、综述进入九十年代,企业面临着激烈的市场竞争。为给客户提供更好的服务,它们要解决诸多问题,如:客户需要什么?什么样的产品有利可图?厂商应提供怎样的服务?而且每个问题常常还会产生新的问题,这就需要不断地、反复地进行分析。 何军 刘红岩关键词:数据仓库体系结构 数据仓库技术 数据分布 数据移动 数据源 互操作性 英国保守党研究 何军关键词:英国保守党 政党发展 管理分类规则的广义决策树 被引量:4 2004年 为了将传统的决策树无法管理的、由各种分类算法所发现的大量的有意义的规则进行有效的存储、剪裁和使用 ,提出了广义决策树结构。它将传统决策树的结构进行扩展 ,能够以较少的存储代价管理所发现的所有分类规则 ,且易于表达规则之间的关系。提出了有效的优化策略。以此树为基础 ,将决策树分类算法与基于关联规则的分类算法进行了概括统一 ,并提出了相应的算法。实验结果证明 ,广义决策树克服了传统决策树的缺点 ,并且适宜于维护。 刘红岩 何军关键词:信息处理 数据挖掘 决策树 关联规则 S-SimRank:结合内容和链接信息的文档相似度计算方法(英文) 被引量:4 2009年 文档的内容分析和连接分析是计算文档相似度的两种方法。连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果。为了解决这个问题,提出了一个新的算法—S-SimRank(Star-SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性。S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高。最后,给出了S-SimRank的收敛性的数学证明。 蔡元哲 李佩 刘红岩 何军 杜小勇关键词:相似度计算 文本分析 医学知识增强的肿瘤分期多任务学习模型 被引量:1 2021年 肿瘤分期是指从病人的电子病历文本中推测肿瘤对应阶段的过程。在电子病历数据中存在类别严重不均衡现象,因此使用深度学习方法进行肿瘤分期具有一定的挑战性。该文提出医学知识增强的多任务学习KEMT(knowledge enhanced multi-task)模型,将肿瘤分期问题视作面向医疗电子病历的文本分类任务,同时引入医生在人工预测肿瘤分期时参考的医学属性,提出基于医学问题的机器阅读理解任务,对上述两种任务进行联合学习。我们与医疗机构合作构建了真实场景下的肿瘤分期的数据集,实验结果显示,KEMT模型可以将医学知识与神经网络结合起来,预测准确率高于传统的文本分类模型。在数据分布不均衡的条件下,在小样本类别上的准确率提升了4.2个百分点,同时模型也具有一定的解释性。 张恒 何文玢 何军 焦增涛 刘红岩关键词:肿瘤分期 文本分类 多任务学习 知识表示 一种限高装置高度检测方法和系统 本发明属于视频目标识别技术领域,涉及一种限高装置高度检测方法和系统,包括:将若干个双目视频采集装置设置在同一高度,通过双目视频采集装置采集视频图像;提取视频图像中限高装置的边界框;提取边界框中角点或边缘点,并将角点或边缘... 何军 范肇心 赵可馨 张敏 潘宇青文献传递