李翠平
- 作品数:95 被引量:677H指数:14
- 供职机构:中国人民大学信息学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种基于约束的多维数据异常点挖掘方法
- 数据中的异常点常常反映了企业经营中潜伏的问题或暗藏的商机,数据分析人员经常需要从大量的数据中来找出这些异常点.文献[5]中提出了一种从数据中自动发现异常点的方法,将人们从繁重的体力劳动中解放出来.然而,该方法在计算效率和...
- 李翠平李盛恩王珊杜小勇
- 关键词:联机分析处理异常点数据挖掘
- 文献传递
- 无线传感器网络中隐私保护通用近似查询协议被引量:10
- 2014年
- 无线传感器网络中实现隐私保护通用近似查询是具有挑战性的问题.文中提出一种无线传感器网络中隐私保护通用近似查询协议PGAQ.PGAQ将传感器节点编号和其采集数据隐藏于设计的数据结构中,在基站构造线性方程组解出直方图,根据直方图具有的统计信息,不泄露隐私地完成Top-k查询、范围查询、SUM、MAX/MIN、Median、Histogram等近似查询.PGAQ使用网内求和聚集以减少能量消耗,并且能够通过调节直方图划分粒度来平衡查询精度与能量消耗.PGAQ协议分为H-PGAQ和F-PGAQ两种模式.H-PGAQ模式使用数据扰动技术加强数据安全性,F-PGAQ使用过滤器减少连续查询通信量.通过理论分析和使用真实数据集实验验证了PGAQ的安全性和有效性.
- 范永健陈红张晓莹彭辉李翠平
- 关键词:无线传感器网络隐私保护近似查询数据聚集物联网
- 面向传感器网络的隐私保护通用近似查询方法
- 本发明提出一种面向传感器网络的隐私保护通用近似查询方法,包括如下步骤:通过基站与传感器节点共享的数据结构,将传感器节点的编号和采集数据隐藏于向量之中;聚集节点通过树状路由将向量向基站传送;在基站构造线性方程组,解出带全局...
- 陈红范永健李翠平张晓莹
- 智能数据分区与布局研究
- 2022年
- 大数据时代,数据规模庞大,由数据进行驱动的应用分析场景日益增多.如何快速、高效地从这些海量数据中提取出用以分析决策的信息,给数据库系统带来重大挑战.同时,现代商业分析决策对分析数据的实时性要求数据库系统能够同时快速处理ACID事务和复杂的分析查询.然而,传统的数据分区粒度太粗,且不能适应动态变化的复杂分析负载;传统的数据布局单一,不能应对现代大量增加的混合事务分析应用场景.为了解决以上问题,“智能数据分区与布局”成为当前的研究热点之一,它通过数据挖掘、机器学习等技术抽取工作负载的有效特征,设计最佳的分区策略来避免扫描大量不相关的数据,指导布局结构设计以适应不同类型的工作负载.首先介绍了智能数据分区与布局的相关背景知识,然后对智能数据分区与布局技术的研究动机、发展趋势、关键技术进行详细的阐述.最后,对智能数据分区与布局技术的研究前景做出总结与展望.
- 刘欢刘鹏举王天一何雨琪孙路明李翠平陈红
- 关键词:数据库系统
- 动态模糊粗糙特征选取算法被引量:2
- 2020年
- 由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。
- 倪鹏刘阳明赵素云陈红陈红
- 关键词:模糊粗糙集依赖度
- 信息网络中一个有效的基于链接的结点相似度度量被引量:3
- 2014年
- 信息网络无处不在.通过把网络中的对象抽象为点,把对象之间的关系刻画为边,相应的信息网络就可以用图来表示.图中结点相似度计算是图数据管理中的基本问题,在很多领域都有运用,比如社会网络分析、信息检索和推荐系统等.其中,著名的相似度度量是以Personalized Page Rank和Sim Rank为代表.这两种度量本质都是以图中的路径来定义,然而它们侧重的路径截然不同.为此,提出了一个度量Super Sim Rank.它不仅涵盖了这些路径,而且考虑了Personalized Page Rank和Sim Rank两者都没有考虑的路径,从而能够更加体现出这种链接关系的本质.在此基础上对Super Sim Rank进行了理论分析,从而提出了相应的优化算法,使得计算性能从最坏情况O(kn4)提高到O(knl).这里,k是迭代次数,n是结点数,l是边数.最后,通过实验验证了Super Sim Rank优于Sim Rank和Personalized Page Rank,同时验证了优化算法在各种情况下都是有效的.
- 张应龙李翠平陈红
- 关键词:SIMRANKPERSONALIZEDPAGERANK
- 概率数据上基于规则的分类器
- 2013年
- 分类作为一类重要的数据挖掘问题被广泛地研究和应用,然而先前的研究主要针对确定数据上的分类问题,由于目前例如传感器等数据采集工具的普遍使用,概率数据广泛存在,在这类数据上进行分类研究十分必要。提出了一种新的概率数据模型,它既考虑了概率分布上的随机性,又包含了独立区间上的相似度;定义了一种新的辨识距离来衡量这类概率数据元组之间的距离;最后提出了概率数据上基于规则的分类算法,在基础分类算法上,引入了一种带有可变精度的分类算法来降低噪声或者扰动,提高了分类的精度。实验结果证明了该算法的有效性。
- 赵婷婷赵素云裴斌陈红李翠平
- 关键词:随机性
- 大规模图上的SimRank计算研究综述被引量:2
- 2019年
- SimRank是一种衡量有向图中任意两节点间结构相似度的模型,其主要思想为,若图中两个节点被相似节点引用,则这两个节点相似.SimRank计算的相似度被广泛应用到网络图聚类、近似查询和协同过滤等领域.SimRank计算模型是一个递归模型,其计算时间、空间复杂度非常高,很难应用于大规模图计算.过去十几年,研究者们针对大规模图提出了许多高效或近似计算的SimRank计算算法.本文首先介绍SimRank模型的描述,以及常见的SimRank计算问题定义,然后按照计算方式将这些算法分为迭代法、非迭代法与随机游走法三类;将非迭代法分为基于矩阵运算求解、基于节点对图求解以及基于线性表示求解,将随机游走法分为基于不同索引结构求解、基于不同抽样方式求解以及其他随机游走算法;介绍了这些算法的基本概念、计算原理以及算法特点;分析了随机游走法与迭代法、非迭代法之间的关系;对各种算法的时间复杂度、空间复杂度、计算精确度以及可扩展性进行了论述;在此基础总结了这些SimRank算法所对应的计算场景,主要包括单点对/单源(Single Pair/Single Source)查询问题、全体/部分节点对(All Pair/Partial Pair)计算问题以及查询问题.最后对不同算法实验中图的规模进行了总结,并对大规模图上的SimRank计算方法进行了总结和展望.
- 张良富李翠平陈红
- 关键词:结构相似度随机游走
- OLAP中基于GPU的中位数计算算法
- 2021年
- 针对联机分析处理(online analytical processing, OLAP)中的整体型聚集函数中位数,提出基于图形处理单元(graphics processing unit, GPU)的GPU-Median算法,通过对数据进行划分,分段排序,不断裁剪全局中位数之前的数据,对未裁剪的数据进行合并,得到最终的中位数,避免了全局的排序时间。提出GPU-Median+算法,对GPU-Median算法进行优化和扩展,使用CPU与GPU协同作业实现聚集操作,利用GPU处理每个队列的数据,CPU处理全局数据。试验和分析证明,相比CPU算法,GPU-Median+算法将中位数计算的时间复杂度从O(n^(2))降低到了O(n);相比GPU上的基数排序算法,GPU-Median+算法的计算时间减少了三分之一。该算法的应用使得GPU计算OLAP中的整体型聚集函数时,发挥出更加优良的并行计算能力,为提升OLAP的查询性能提供了新的思路。
- 吴振鹏张健范星奇李翠平
- 关键词:联机分析处理图形处理单元中位数
- 苯甲醇在十六烷基溴化吡啶胶束中的增溶位置
- 辨〈’1〉H-NMR谱研究苯甲醇在十六烷基溴化吡啶(CPDB)胶束中的增溶位置及其从重水到胶束内的自由能的变化。研究发现,在增溶物浓度很低时,苯甲醇主要是吸附在胶束-水“界面”上。随着其浓度的增加,苯甲醇增溶在胶束的“栅...
- 肖洪地李干佐李翠平随华
- 关键词:增溶作用苯甲醇