国家自然科学基金(61070053)
- 作品数:8 被引量:94H指数:5
- 相关作者:朱青王珊覃左言周梦溪陈婷更多>>
- 相关机构:中国人民大学更多>>
- 发文基金:国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- HyDB:集成MapReduce和数据库的高效SaaS架构被引量:6
- 2012年
- 随着数据的快速增长和云计算的兴起,软件作为服务(SaaS)标志着计算机系统按需服务的应用的兴起.高效经济SaaS使得许多企业将大规模数据分析服务从部署在并行数据库的高端服务器转移至更便宜的无共享体系结构的低端服务器集群上.论文提出了集成MapReduce和数据库的高效经济SaaS架构—HyDB系统,解决海量结构化,半结构化与非结构化数据的高效查询服务,通过对数据的存储模型和查询模型进行研究,提出了完整的数据存储和查询服务方案,给出基于队列的作业调度算法,并支持针对简约数据查询的快速响应模式.最后通过可扩展实验,证明了该系统架构具有良好的加载性能、查询性能和容错能力,可以为用户提供优质的数据服务.
- 覃左言朱青李伏
- 关键词:MAPREDUCE数据库作业调度
- 大数据模式分解的隐私保护研究被引量:4
- 2012年
- 现有的大多数隐私保护技术往往忽略了敏感属性不同取值和准标识符属性之间存在的特殊关联,并且各领域对数据隐私保护的多方面要求,使得发布的匿名数据需要满足复合隐私约束。对近似敏感属性值和复合隐私约束进行分析,提出了基于大数据模式分解和聚类分析的隐私保护算法。给出了聚类敏感属性值保护相似值方法,设置不同权重的敏感属性,保留重要的属性。使用三维不规则结构矩阵的效用矩阵,来获取精度较高的匿名数据,实现匿名数据的模式分解。在真实数据集上的大量实验结果表明,该算法的数据精确率、数据纠错率都有明显提升,近似攻击率降低。
- 李宁朱青
- 关键词:属性聚类
- 基于语义相似度的Web信息可信分析被引量:6
- 2013年
- 互联网上的虚假事实陈述严重影响人们有效地获取信息,如何判定事实陈述是否可信成为一个亟待解决的问题.文中提出了一种针对事实陈述的可信判定模型MFSV.该模型针对事实陈述的特点,从互联网上搜集与待判定事实陈述相关的文本信息,度量其与对应事实陈述的语义相似度;同时,该模型考虑了相关文本信息在可信度上的差别,从受欢迎程度和重要程度两个方面度量了相关文本信息来源的可信度,并获取了相关文本信息的可信度排序;根据语义相似度以及可信度排序,衡量了相关文本信息对对应事实陈述可信判定所做出的贡献,并以此为基础实现了待判定事实陈述的可信判定.一系列的实验验证了该模型的合理性及可信判定的准确性.
- 王腾朱青王珊
- 关键词:语义相似度
- 基于评论分析的查询服务推荐排序被引量:6
- 2011年
- 面对查询服务如何为用户提供满足需求的个性化推荐.提出一种基于自然语言进行评论分析、并提取特征属性进行多属性决策,为用户提供推荐排名策略,建立基于评论语义和Web挖掘技术的信息推荐系统实现个性化服务.解决了对同一商品的不同店铺之间的优劣比较和推荐,对各店铺的用户评论进行了主题抽取和情感分析,通过聚类成为"客户满意度"属性,与从店铺页面上爬取到的客观数据一起代入到推荐系统中进行计算.系统允许用户自主选择关心的属性及重要性排序,使得系统给出的推荐结果既能客观全面的反映店铺的状况,又能符合用户的评价偏好.
- 田超朱青覃左言李鹏
- 关键词:查询服务
- 基于压缩全文索引的演变图查询
- 2015年
- 演变图中含有大量的时间和空间信息,其中某些空间信息随着时间的推移表现出相似的演变规律。给出了一种演变图查询模型,可以挖掘出在相同时间范围内具有相同变化规律的演变子图。但是演变图的规模往往是巨大的,当需要对其进行多次查询时,每次遍历整个演变图将带来非常高的查询代价,而现有的基于枚举的哈希索引算法又使得预处理过程拥有相当大的时间和空间开销,为了减少对大规模演变图的预处理代价,将压缩的全文索引技术应用于演变图,它基于涡轮转换和后缀数组。在构建后缀数组时,给出了两种不同的线性算法,确保了预处理过程的稳定性。通过在Facebook、Enron邮件系统以及模拟数据集上的实验,评估了该算法的可行性、效率以及可扩展性。
- 肖洋朱青吴粤皖
- 关键词:查询后缀数组
- 社交网络环境下基于信任的推荐算法被引量:62
- 2017年
- 现有的基于信任的推荐算法通常假设用户是单一和同质的,没有充分挖掘信任关系信息,且相似关系和信任关系的融合缺乏高效的模型,极大地影响了推荐的准确性和可靠性.提出一种基于信任的推荐算法.首先,结合全局信任和局部信任,并利用信任的传播性质对信任关系进行建模;然后,设置推荐权重,综合考虑相似度和信任度来构建用户间的偏好关系,筛选出邻居;最后,将基于记忆的协同过滤思想和社交网络的信任关系融入概率矩阵分解模型,同时使用自适应权重动态决定各部分的影响程度,形成高效、统一的可信推荐模型Trust-PMF.该算法在FilmTrust,Epinions这两个数据集上与相关算法做了对比验证,结果证实了该算法的高效性.
- 陈婷朱青周梦溪王珊
- 关键词:社会网络信任推荐系统
- 基于历史信息提升关键字查询效率被引量:5
- 2011年
- 关系数据库上的关键字查询使用户不必了解SQL语法或者数据库模式即可方便进行检索,并利用关系表的连接来保证查询的完整性.但是目前已有的关键字查询技术对于每个用户发起的查询皆从底层数据开始处理,而忽略了历史查询信息的使用.历史信息不仅包含了历史查询结果,而且反映了关键字之间的相关性,在查询过程中使用历史信息会提升查询效率.此篇论文正是针对此问题提出了新的解决方案:首先利用划分算法将用户输入的关键字划分为历史关键字和新关键字的组合;利用历史信息展开关键字查询,得到以子图形式存在的查询结果;基于与关键字的相关度对结果子图进行排序.最后,基于DBLP数据集,实验在执行时间和查准率方面证明了算法的有效性和高效性.
- 万洁张文胜朱青王珊
- 关键词:关键字查询历史信息
- 多维度自适应的协同过滤推荐算法被引量:5
- 2011年
- 传统的协同过滤推荐算法明显存在的缺点是数据稀疏性导致所求相似性的不准确,影响最终推荐质量.本文围绕其局限性展开研究,提出一种多维度自适应的协同过滤推荐算法,有机结合三种推荐模型———基于用户、基于项目以及基于评论的相似性计算,将观点挖掘技术运用到协同过滤推荐算法中,并通过动态度量方法自动确定三个维度的权重产生最终推荐.实验结果表明,该算法可以有效缓解用户评分数据稀疏带来的不良影响,提高预测准确率和推荐质量.
- 邢哲梁竞帆朱青
- 关键词:多维度自适应协同过滤推荐系统