苗忠义 作品数:5 被引量:8 H指数:2 供职机构: 苏州大学计算机科学与技术学院智能化信息处理技术研究所 更多>> 发文基金: 国家自然科学基金 江苏省“六大人才高峰”高层次人才项目 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 更多>>
Web数据库重叠估计技术研究 集成Deep Web中的数据信息是一项非常重要的工作,在这项工作中常会遇到信息冗余和记录去重问题,它们常成为集成工作成败的关键。估计web数据库重叠率,可以优化信息冗余和记录去重工作,减少集成的盲目性。
本论... 苗忠义关键词:WEB数据库 文献传递 扩展的Deep Web质量估计模型研究 Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量... 胡鹏昱 苗忠义 崔志明 方巍关键词:数据源 文献传递 扩展的Deep Web质量估计模型研究 被引量:5 2008年 Deep Web中蕴涵了海量的高质量信息.文中从Deep Web数据源的功能属性和非功能属性两个方面对数据源的质量进行度量,建立了一种基于综合模糊评价指标体系的扩展的数据源质量估计模型.实验结果表明该模型得到的数据源质量排序序列和人工排序序列的Kendall’s距离较扩展前有了很大提高,而且质量估计结果也能使数据源的选择得到较高精确度. 胡鹏昱 苗忠义 崔志明 方巍关键词:DEEP WEB 质量指标 基于属性高频字的深网数据库重叠率估计 被引量:3 2009年 在同一领域中,不同Web数据库之间有重叠部分,为估计重叠部分在Web数据库中所占比例,提出一种基于属性高频字的重叠率估计方法。以中文高频字作为起点,迭代诱导属性高频字。通过属性高频字的查询结果计算重叠部分出现的条件概率,进而估计重叠率。实验证明,该方法的偏差度和波动度都小于5。 苗忠义 赵朋朋 胡鹏昱 崔志明关键词:深网 数据库 用Capture-Recapture方法估计Web数据库大小 被引量:1 2009年 为了估计网络数据库的大小,提出了基于Capture-Recapture过滤二字亲密、二字排斥的方法。通过在接口文本框提交属性高频字,利用返回的结果集,在两两之间作交集,根据交集中的两字分布分析采样的独立性,过滤掉其中不独立的情况,再利用Capture-Recapture方法估计网络数据库的大小。在模拟和真实的环境下进行了实验,该方法偏差度和波动度均较小。 苗忠义 胡鹏昱 崔志明关键词:深网 网络数据库