王佳英
- 作品数:7 被引量:16H指数:2
- 供职机构:东北大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种支持约束关系的高效的行程规划算法被引量:4
- 2013年
- 行程规划问题的研究已经成为人们关注的热点之一,越来越多的人需要这一服务的帮助来确定最优的行程路线.假如用户指定了源点和终点,并且限制了旅行的时间,该如何帮助用户规划一条人气最高的旅游路线呢?已有的方法是按照路线上包含的景点全部游玩的规则进行规划,而在上述需求中,如果还是按照这种规则规划,那么可能找不到事实上存在的满足条件的路线.但是如果在路径规划时按照时间花费和景点人气去确定每个景点是游玩还是越过,就可能会找到一条满意的路线,可是这样就大大增加了路径搜索的代价.求解这类的最优路径问题是一个NP难问题,基于现有知识,已有的处理方法并不能有效的降低那一部分增大的搜索代价.因此,提出一种基于贪心策略的算法来解决这一问题,为了提高搜索的准确性,又提出了两个改进的算法.最后,通过实验分析,得出本文提出的算法能够在很高的执行效率下找到近似的最优路线.
- 鲍金玲杨晓春王斌王佳英
- 关键词:路径搜索
- 障碍空间中保持位置隐私的最近邻查询方法
- 位置服务的隐私保护是近年来空间数据库领域研究的热点.然而,现有的位置隐私保护方法只支持简单的最近邻查询,没有考虑障碍物的空间.但是障碍物的空间在实际中是普遍存在的,因此,研究障碍空间中保持位置隐私的最近邻查询问题是有意义...
- 朱怀杰王佳英王斌杨晓春
- 关键词:数据库位置隐私
- 支持起源回溯的最小化标识属性传播
- 2012年
- 数据起源主要描述数据的来源及随时间演化的过程。最小化查询数据表的标识属性传播是一个亟待解决的问题。通过构建等值传播链表EPL描述查询中的等值连接及其传递性,并基于EPL给出朴素标识属性传播方法实现高效溯源信息传播。然而标识属性通过等值连接可以识别非标识属性数值,简单地传播数据表的标识属性数值导致起源数据冗余传播。为避免溯源信息冗余,提出完全标识属性传播格及其剪枝策略,给出基于格剪枝的最优标识属性传播方法,实现溯源信息的最小代价传播。基于TPC-H Benchmark和人造数据集IAP-DB的实验结果验证了提出的基于标识属性传播的溯源方法可以高效实现数据起源信息传播。
- 王斌王佳英杨晓春
- 关键词:数据起源剪枝
- 采用BWT的多核并行的子串匹配算法
- 2016年
- 针对P-BWT精确匹配算法存在只支持短串查询并且只能工作在单处理器上的问题,提出了一个多核并行的支持任意查询长度的精确查询算法.改进了P-BWT索引上的查询过程,当一个查询串跨越了多个数据分片时,首先在其匹配的最后一个分片上查询,然后依次在前面分片上进行验证.进一步提出了一个多核并行查询算法来减少搜索和验证过程的迭代次数.实验结果表明,所述算法可以高效并行地完成子串匹配任务.
- 王佳英王斌李晓华杨晓春
- 关键词:全文索引多核
- 障碍空间中保持位置隐私的最近邻查询方法被引量:10
- 2014年
- 基于位置服务的隐私保护是近年来空间数据库领域研究的热点.然而,现有的位置隐私保护方法只支持简单的最近邻查询,没有考虑障碍物的空间.但是障碍物的空间在实际中是普遍存在的,因此,研究障碍空间中保持位置隐私的最近邻查询问题是有意义的,也是一个难点.针对这个问题,提出了一种基于第三方可靠服务器的方法.该方法能够保证用户在享受基于位置服务所提供的实际准确答案的同时,其位置信息不被泄露.该方法首先针对用户查询的准确位置,利用第三方可靠服务器来构造一个匿名的区域并发送给位置服务器,进行匿名区域的查询处理.在查询处理过程中,提供了两种查询处理方法:1)基于线段的最大障碍距离的查询处理方法(基本方法),即利用线段的最大障碍距离来扩展匿名区域,返回扩展后的区域内的结果;2)优化查询处理方法,即在基本方法的基础上,进行迭代优化,进一步缩小扩展区域.然后把匿名区域的查询处理的结果返回给第三可信方.最后,第三方可靠服务器根据用户的准确位置,把实际准确结果返回给用户.实验结果和理论表明了这两种查询处理方法的有效性和正确性.
- 朱怀杰王佳英王斌杨晓春
- 关键词:最近邻查询位置隐私
- 一种空间高效的多核并行近似子串匹配方法
- 2015年
- 子串匹配问题是信息检索、信号处理以及生物信息学等领域中的研究重点.随着文本数据的快速增长,在大数据集上高效地完成近似子串匹配是一项挑战.另一方面,多核架构已经成为当今的主流计算机架构,如何在大规模数据中利用多核的优势提高近似子串匹配的效率是本文的研究重点.BWT索引是生物信息学中广泛应用的索引方法,其特点是索引空间小,支持高效压缩和子串匹配.但现有的基于BWT的方法没有考虑多个查询串上的计算共享以及多核资源的动态分配.本文在传统的BWT搜索方法基础上对搜索过程进行了改进,采用过滤和验证的方式完成近似子串匹配.首先,对查询串进行分割重组来减少搜索过程中的重复计算.其次,利用多核优势,动态地按需分配处理器资源从而提高搜索和验证的效率.最后,实验研究展示了本文提出的方法的高效性.
- 王佳英王斌杨晓春
- 关键词:多核子串
- 面向压缩生物基因数据的高效的查询方法被引量:2
- 2016年
- 随着下一代、第三代等测序技术的快速发展,DNA等生物序列数据快速增长.如何高效地处理这些大数据是目前所面临的一个挑战.研究发现,这些生物序列数据尽管很大,但是不同数据之间具有很高的相似性.因此可以通过保存这些基因串同一个基准序列之间的差异来减少存储的代价.最新的研究发现,可以在这些压缩的数据上直接进行查询,而不需要解压缩.研究的目标是进一步提高索引和查询的可伸缩性,从而满足日益增长的大数据需要.首先在现有方法的基础上,对基准序列进行了压缩存储.基于该压缩数据,提出了一系列优化查询方法以高效地支持任意长度序列的精确和近似查询.在此基础上,进一步对原有方法进行改进,利用并行计算来提高对大数据的查询效率.最后,实验研究展示了所提方法的高效性.
- 王佳英王斌杨晓春
- 关键词:基因数据大数据可伸缩性数据压缩并行计算