国家科技支撑计划(2006BAK11B03)
- 作品数:12 被引量:130H指数:6
- 相关作者:胡长军何婷婷李华昱欧阳纯萍闻彬更多>>
- 相关机构:北京科技大学华中师范大学中国石油天然气集团公司更多>>
- 发文基金:国家科技支撑计划国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 一种基于维基百科知识库的中文文本分类方法研究
- 传统的文本表示方法是基于词条的向量表示方法(Bag of Words or BOW),文本信息中的每一个词条都被表示成该向量中的一个维度。尽管这样的表示方法简单而且常用,但是却难免会有一些限制,因为文本之间存在着复杂的潜...
- 苏小康何婷婷涂新辉何金卓
- 关键词:文本分类维基百科
- 文献传递
- 网络内容监控与预警系统的设计与实现被引量:9
- 2009年
- 为了防止互联网上非法信息的传播和浏览,对网上信息的内容进行主动监管,保护网络信息的安全,成为关系社会稳定的重要课题。设计并实现了一套网络内容监控预警系统,通过本系统对网站内容进行主动监控,分析其热点网页及内容信息的安全性,计算网站的总警度并得到总警度的发展趋势,便于监控者实施对网站的内容监控与预警。
- 陈红松胡长军
- 关键词:分词处理网络安全
- 一种面向领域的虚拟视图语义集成方法
- 2010年
- 针对油井工程领域异构数据源,提出了一种基于语义的虚拟视图集成方法。通过本体抽取和本体合并分别构造数据源局部本体和全局本体实现基于语义的数据访问视图,并利用全局本体、局部本体和数据源模式之间的映射关系,将基于语义的查询转换为底层数据源的访问请求,提供统一、透明的数据访问视图,以避免数据加载和更新等问题。通过油井决策支持数据集成平台,该方法取得了很好的应用效果。
- 李华昱胡长军欧阳纯萍叶银珠
- 关键词:领域本体虚拟视图抽取规则本体映射
- 从关系数据库到本体映射研究综述被引量:18
- 2009年
- 随着语义W eb技术的逐步发展,本体在数据集成和异构系统语义交互研究中起到越来越重要的作用.本文对近年来从关系数据库到本体建立语义关联的研究现状进行了阐述,将其分为从关系数据库抽取本体以及关系数据库模式与给定本体进行映射两大类,分别针对这两类方案的特点、应用领域、相关研究和工具进行了详细分析,并对当前的典型研究成果进行比较.在此基础上指出映射维护、工具可视化、利用实例知识或领域知识辅助映射以及自动映射的评价是未来的研究和发展方向.
- 张晓明胡长军李华昱赵冲冲
- 关键词:关系数据库本体映射语义集成
- 一种基于FCA的面向关系数据库的本体学习方法被引量:7
- 2011年
- 从已有的数据模型中进行语义提取,经过一定的规则映射生成本体的过程称为本体学习。关系数据库模型是当前数据的存取与组织的主要模型,从中学习得到本体,一直是本体工程领域研究的热点之一。利用手工定义的E-R模型到本体的映射规则来完成本体的构建,是国内外大部分学者采用的方法。但这样获得的本体概念层次关系主观依赖性强,不利于本体的实际应用。为了能更加客观地获取数据之间的概念层次关系与语义信息,提出了一种基于FCA(形式概念分析)从关系数据库进行本体学习的方法。该方法既保持了关系数据表中原有的数据语义关系,又发挥了FCA自动提取语义信息的特点,提高了最终本体生成的质量,有利于在具体的领域应用中使用本体。最后结合材料服役安全数据库的数据信息,演示了运用所提出的方法学习得到领域本体的过程。
- 欧阳纯萍胡长军李扬刘振宇
- 关键词:FCA概念格关系数据库本体
- 基于PMI-IR算法的Blog情感分类研究
- Blog信息源和信息量的广泛增长给中文文本分类带来了新的挑战。本文提出了一种基于PMI-IR算法的四种情感分类方法来对Blog文本进行情感分类。该方法以情感词语为中心,通过搜索引擎返回的结果来计算文本中的情感要索和背景情...
- 段秀婷何婷婷宋乐
- 关键词:中文信息处理情感分类互信息
- 文献传递
- 以关键词抽取为核心的文摘句选择策略被引量:10
- 2008年
- 针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。
- 马亮何婷婷李芳陈劲光邵伟
- 关键词:计算机应用中文信息处理多文档文摘关键词抽取
- 基于最小二乘支持向量机的网页主题语义分类的研究被引量:2
- 2009年
- 提出了对网页主题进行语义扩展的方法,利用最小二乘支持向量机LSSVM(least squares support vector machines)来代替传统的支持向量机SVM(support vector machine)的分类技术。在建立LSSVM模型的多类别分类算法基础上,将其应用到网页主题语义分类。实验表明,最小二乘支持向量机学习速度快,在小样本情况下具有良好的非线性建模和泛化能力,对网页主题语义分类具有很好的效果。
- 樊中华侯占斌张晨星马骁
- 关键词:最小二乘支持向量机语义建模
- 基于语义理解的文本情感分类方法研究被引量:43
- 2010年
- 文本情感分类方法在信息过滤、信息安全、信息推荐中都有广泛的应用。提出一种基于语义理解的文本情感分类方法,在情感词识别中引入了情感义原,通过赋予概念情感语义,重新定义概念的情感相似度,得到词语情感语义值。分析语义层副词的出现规律及其对文本倾向性判定的影响,实现了基于语义理解的文本情感分类。实验表明,该方法能有效地判定文本情感倾向性。
- 闻彬何婷婷罗乐宋乐王倩
- 关键词:文本情感分类语义理解
- 一种面向e-Science环境的多领域Web文本特征抽取模型
- 2011年
- 传统领域信息抽取方法多依赖领域词典实现文本特征的发现,既不便于实验复现,也不易于其在多领域环境中移植与推广,严重制约了模型的应用范围.针对上述不足,提出一种适用于e-Science环境的多领域Web文本特征抽取模型(简称e-WTDE).该模型将无词典分词技术引入多领域文本特征发现过程,摆脱了对于领域词典的依赖;借助对领域主题及其具体事件中共性与个性特征的抽取与分类,模型动态追踪领域事件发生及其发展变化,并最终形成多个区域性数据中心;通过对各数据中心中领域知识的协同调度,有力提高了领域信息在全局范围内的利用效率.验证实验中分别对多领域特征抽取、主题特征动态追踪以及领域知识协同调度予以有效性验证,并进一步证明了模型的实用效果.
- 翁彧胡长军席强张学春
- 关键词:E-SCIENCE环境WEB文本挖掘