刘少鹏 作品数:6 被引量:69 H指数:5 供职机构: 中山大学信息科学与技术学院 更多>> 发文基金: 广东省科技计划工业攻关项目 国家自然科学基金 广东省自然科学基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
基于主题词的微博热点话题发现 被引量:11 2016年 近年来,微博网站已成为海量信息的发布平台。微博丰富的信息为用户提供便利的同时,也带来了信息过载的风险。针对热点话题发现能够降低信息过载的风险,改善用户体验。结合最长公共子串和维基百科知识,提出一种基于主题词的中文微博热点话题发现方法。首先,获取微博数据的高频最长公共子串,作为描述话题的候选主题词;其次,利用维基百科知识,对候选主题词进行筛选;最后,对主题词集合聚类以发现话题,并计算每个话题的能量,从中选取热点话题。在真实数据集上的实验表明,该方法能有效发现微博热点话题。 叶成绪 杨萍 刘少鹏关键词:维基百科 最长公共子串 一种有效的差分隐私事务数据发布策略 被引量:13 2014年 近年来,隐私保护事务数据发布得到了研究者的广泛关注.事务数据的稀疏性导致个体隐私保护与数据效用性之间很难达到平衡.目前已有的方法大多是基于分组的匿名模型,但该类模型依赖于攻击者背景知识,且发布的数据无法满足事务数据分析任务的需要.针对事务数据隐私保护发布的数据安全性与效用性不足,基于差分隐私与压缩感知理论,提出一种有效的面向应用的事务数据发布策略(transaction data publish strategy,TDPS).首先构建事务数据库的完整Trie项集树,然后基于压缩感知技术对项集树添加满足差分隐私约束的噪音得到含噪Trie项集树,最后在含噪树上进行频繁项集挖掘任务.实验结果表明,TDPS不仅能很好地保护隐私,而且能有效保持数据效用性,满足事务数据分析任务对数据质量的要求. 欧阳佳 印鉴 刘少鹏 刘玉葆关键词:隐私保护 TRIE树 压缩感知 基于MB-HDP模型的微博主题挖掘 被引量:31 2015年 主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由Latent Dirichlet Allocation(LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层Dirichlet过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise(CRF)对微博数据进行主题建模;最后,设计一个相应的Markov Chain Monte Carlo(MCMC)采样方法,推导MB-HDP模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP模型明显优于LDA和HDP两种模型. 刘少鹏 印鉴 欧阳佳 黄云 杨晓颖关键词:主题挖掘 基于话题标签的微博主题挖掘 被引量:10 2015年 随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3类,提出基于作者主题模型(ATM)的话题标签主题模型HC-ATM,使用Gibbs抽样法对模型进行推导,获取微博主题结构。在Twitter数据集上的实验结果表明,与ATM模型和基于潜在狄利克雷分布的微博生成模型相比,HC-ATM模型的主题困惑度更小、差异度更大,并且能有效挖掘出不同微博类型的主题分布。 李敬 印鉴 刘少鹏 潘雅丽关键词:主题挖掘 社交网络 一种分布式事务数据的差分隐私发布策略 被引量:7 2015年 目前隐私保护的事务数据发布研究多是基于集中式结构.针对分布式结构下事务数据发布问题,为保护数据隐私,同时最大化数据效用,提出一种满足差分隐私约束的发布策略.首先,将结果效用性优化与差分隐私约束相结合,构建分布式非线性规划模型.然后,基于全局与局部数据设计两种解决方案安全求解该分布式模型.理论分析与实验结果均表明,所提出的发布策略是安全的且满足差分隐私要求,具有很好的实用性. 欧阳佳 印鉴 刘少鹏关键词:隐私保护 分布式结构 一种有效的差分隐私事务数据发布策略 近年来,隐私保护事务数据发布得到了研究者的广泛关注。事务数据的稀疏性导致个体隐私保护与数据效用性之间很难达到平衡。目前已有的方法大多是基于分组的匿名模型,但该类模型依赖于攻击者背景知识,且发布的数据无法满足事务数据分析任... 欧阳佳 印鉴 刘少鹏关键词:TRIE树 压缩感知