国家自然科学基金(69835010) 作品数:26 被引量:319 H指数:10 相关作者: 熊范纶 施鹏飞 赵奕 王儒敬 滕明贵 更多>> 相关机构: 中国科学院 中国科学技术大学 上海交通大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 农业科学 天文地球 理学 更多>>
一个适用于地理信息系统的数据挖掘工具—GISMiner 被引量:22 2002年 论文将常用于关系型、事务型数据库的面向属性归纳的方法和关联规则挖掘方法扩展至空间数据库 ,开发了适用于地理信息系统 (GIS)的空间数据挖掘工具———GISMiner,并将其应用于从农田GIS中挖掘农田使用情况的空间特征规则 ,以及从农产品市场GIS中挖掘农产品价格与铁路、国道和河流间的空间关联规则实验 .结果表明 ,GISMiner是一个实用的。 袁红春 熊范纶 杭小树 张友华关键词:地理信息系统 空间数据挖掘 面向属性归纳 空间关联规则 空间数据库 一种发现时空变化模式的方法 2005年 针对时空快照模式,提出一种从时空快照数据中发现时空变化模式的方法. 采用了基于密度和基于网格的方法,将高维密集单元的搜索限制在子空间密集单元的交集中,缩小了搜索空间.通过引入子约束和模式区间等概念,使算法能发现不同概念层上的变化模式.结果中的模式质量取决于离散过程中的最小粒度.通过实验数据证明,此法能够有效地从时空快照数据中有效提取时空变化模式. 滕明贵 马献章 吴正龙关键词:时空数据 A Quick Algorithm for Mining Exceptional Rules 2002年 Exceptional rules are often ignored because of their small support. However, they have high confidence, so they are useful sometimes. A new algorithm for mining exceptional rules is presented, which creates a large itemset from a relatively small database and scans the whole database only one time to generate all exceptional rules. This algorithm is proved to be quick and effective through its application in a mushroom database. Sun Haihong , Jiang Hong , Tang Jing & Yang Bingru( Department Science and Technology, Bank of Shanghai, Shanghai 200010, P. R. China基于句子相关度的文本自动分类 被引量:4 2006年 提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点. 张友华 熊范纶关键词:文本分类 语料库 一种通过动态聚类训练椭圆形模糊分类器的方法 被引量:2 2004年 研究了椭圆形模糊分类器的训练问题 .首先从分类器的结构入手 ,分析异类训练样本形成的椭圆相互重叠时 ,两种原因引起样本被误分 ,由此提出两种动态聚类的方案来增加新的分类规则 ,并且采用基于实数编码的遗传算法训练椭圆 .将提出的训练方法应用于实例 ,并与其它训练方法比较 。 滕明贵 吴正龙 熊范纶关键词:动态聚类 分类器 实数编码 遗传算法 基于最小拟合误差平方和准则的空间聚类 被引量:1 2005年 在一些回归分析问题中,数据来自于空间对象的非空间属性.许多问题中不用考虑空间属性,而直接分析非空间属性.如果在整个问题空间中,对象空间差异较大,需要将空间对象划分为若干子空间,子空间对应的局域回归模型,可以减小空间差异性的影响.针对子空间连通性约束情况下空间对象的局域回归分析问题,提出基于最小拟合误差平方和准则的空间划分方法,从一个空间的初始划分开始,按照拟合误差平方和下降的原则调整子空间边界,获得新的空间划分和对应的回归模型,不断迭代直到准则函数收敛. 滕明贵 王儒敬 马献章关键词:空间聚类 多最小支持度规则的挖掘算法 被引量:14 2003年 支持度是数据挖掘中度量客观兴趣度的重要指标,最小支持度的设置提高了数据挖掘过程的有效性。但是,由于事件在现实中发生和存在频度上有很大的不一致性,始终保持单一的最小支持度显然是不合理的。该文提出了一种多最小支持度规则的挖掘算法,并应用于蘑菇数据库的挖掘过程,结果证明该算法是合理有效的。 杨炳儒 陈泓婕关键词:数据挖掘算法 知识发现 数据库 Rough有限格的蕴涵规则挖掘 被引量:15 2001年 提出了一种基于 Rough有限概念格的规则发现方法 (RRLIRD) ,以揭示数据集中的蕴涵规则 .首先引入有限概念格的简化表示形式 ,由用户选择数据集中感兴趣属性集创建概念格结构 ,提高用户的交互性和挖掘的效率 ;然后运用有限概念格与 Rough集理论相结合形成 Rough有限概念格 ,蕴涵规则则由其特有的上、下近似运算得到 ,不需计算繁琐的频繁项目集 .算法运用大型超市的交易流水数据进行仿真实验 .结果表明 ,执行时间比经典的 Apriori算法大大降低 .该算法也适用于证券行情分析和农业数据库中的病虫害分析等 . 赵奕 邢平平 施鹏飞 熊范纶关键词:数据挖掘 概念格 ROUGH集 一种用于空间对象属性预测的空间广义线性回归模型 被引量:2 2005年 泛Kriging和广义线性回归模型是空间对象属性值预测最常用的方法,两种模型各有侧重。本文结合这两种模型的优点,并针对实际问题将两种模型合并,形成新的空间广义线性回归模型,并通过混合模型进行参数估计。实验表明,采用空间广义线性回归预测模型能获得更高的预测精度。 王儒敬 滕明贵关键词:混合模型 最大频繁集的数据聚类方法 被引量:16 2000年 提出了一种新的聚类方法.针对货篮数据的特点,运用概念格获取最大频繁项目集,并以此作为初始聚类,采用适合于货篮数据的相似性测量方法,求得聚类结果.研究表明,该方法所生成的聚类比其它传统方法更优化,而且效率较高. 赵奕 施鹏飞关键词:最大频繁集 概念格 聚类 数据集 数据处理