慈祥
- 作品数:8 被引量:2,443H指数:5
- 供职机构:中国人民大学信息学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国人民大学科学研究基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 海量高维向量的并行Top-k连接查询被引量:10
- 2015年
- 在很多应用领域中,向量的Top-k连接查询是一种很重要的操作,给定两个向量集合R和S,Top-k连接查询要求从R和S中返回距离最小的前k个向量对.由于数据的海量性和高维特性,传统的集中式算法已经无法在可接受的时间内完成连接查询任务.MapReduce作为一个并行处理框架,能够有效地处理大规模数据.由于其高可扩展性、高可用性等特点,MapReduce已经成为海量数据处理的首选实现方案,在很多领域都得到了广泛的应用.文中基于分段累积近似法对高维向量进行降维,然后利用符号累积近似法对高维向量进行分组;在此基础上,结合MapReduce框架,提出了基于SAX的并行Top-k连接查询算法.实验表明,文中所提方案具有良好的性能和扩展性.
- 马友忠慈祥孟小峰
- 关键词:MAPREDUCE框架大数据
- 面向民航领域的网络热点话题发现
- 2011年
- 针对尚未有专门进行民航领域网络热点话题发现研究的现状,提出一种面向民航领域网络热点发现的模型。采用民航专业词库过滤无关网页,结合single-pass聚类算法,根据热度计算公式得到网络上民航相关的热点话题。实验表明:该模型发现热点话题的准确度较高,具有一定的实用价值。
- 黄剑雄慈祥丁建立
- 一种基于免疫遗传算法的网络新词识别方法被引量:12
- 2011年
- 随着互联网的发展,网络新词不断涌现,但是目前的分词方法很难及时、准确地对其做出识别。对此提出一种应用免疫遗传算法的网络新词识别方法。在分析网络新词特点的基础上,利用汉语词群现象和词位的概念提取出示范抗体,在遗传算法进行的过程中有针对性地注入该抗体。实验表明,该方法对于分词碎片中符合词群现象的新词有着极高的识别率,对于一般网络新词的识别率也基本令人满意。
- 丁建立慈祥黄剑雄
- 关键词:免疫遗传算法词位抗体
- 网络评论倾向性分析被引量:13
- 2010年
- Web2.0的兴起使得包括新闻评论、产品评论在内的各种网络评论大量涌现,针对评论信息的监管和利用中的问题多种多样,重点研究其中的网络评论倾向性分析。以知网为基本的语义字典,提出一种改进的词汇相似度计算方法,在此基础上融合同义词词林对词汇的倾向性计算做出改进,进而利用相关语言学知识实现了从细粒度的词汇到粗粒度的评论的倾向性判断。实验表明,该方法对于真实网络环境下的网络评论倾向性分析具有较高的准确率。
- 丁建立慈祥黄剑雄
- 关键词:知网同义词词林网络评论
- 一种云环境下的大数据Top-K查询方法被引量:17
- 2014年
- Top-K查询在搜索引擎、电子商务等领域有着广泛的应用.Top-K查询从海量数据中返回最符合用户需求的前K个结果,主要目的是消除信息过载带来的负面影响.大数据背景下的Top-K查询,给数据管理和分析等方面带来新的挑战.结合MapReduce的特点,从数据划分、数据筛选等方面对云环境下的大数据Top-K查询问题进行深入研究.实验结果表明,该方法具有良好的性能和扩展性.
- 慈祥马友忠孟小峰
- 关键词:TOP-K查询云计算MAPREDUCE
- 大数据管理:概念、技术与挑战被引量:2394
- 2013年
- 云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战.
- 孟小峰慈祥
- 关键词:大数据数据分析云计算
- 基于Nutch的民航领域舆情信息监测技术研究
- 网络的高速发展带来一系列网络监管上的问题,除传统的网络安全技术问题外,网络内容安全也越来越引起了人们的重视,网络舆情信息的监测正是在这种背景下产生的。舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众...
- 慈祥
- 关键词:监测系统识别技术免疫遗传算法
- 文献传递
- 云环境下的Max/Min在线聚集技术研究
- 2015年
- 数据探索作为数据分析的一个重要环节,必须能够高效的获取数据集的关键性指标,比如最大/最小值、均值等.关系数据库中这些指标可以通过SQL语句的聚集函数得到.为了实现海量数据下的高效聚集,关系数据库领域学者提出了在线聚集.在大数据时代,云环境下的在线聚集技术开始得到重视.但是目前云环境下的在线聚集研究基本是针对Count、Sum等聚集函数,尚未有针对Max/Min在线聚集的研究.本文利用切比雪夫不等式和中心极限定理,通过分位数来衡量Max/Min在线聚集的精确度.实验证明,该方法能够很好的适应大数据环境下的在线聚集,并具有良好的扩展性.
- 汪凤鸣慈祥孟小峰
- 关键词:云计算切比雪夫不等式中心极限定理