禹晓辉
- 作品数:14 被引量:123H指数:4
- 供职机构:山东大学更多>>
- 发文基金:国家自然科学基金山东省自然科学基金山东省科技发展计划项目更多>>
- 相关领域:自动化与计算机技术交通运输工程医药卫生一般工业技术更多>>
- 分布式流处理技术
- 介绍了大数据处理模式,流处理技术发展,分布式流处理系统剖析,分布式流处理应用实例,分布式流处理系统设计。
- 禹晓辉
- 关键词:数据库系统架构存储管理
- 一种动态调整任务分配的流处理作业调度方法及系统
- 本发明公开了一种动态调整任务分配的流处理作业调度方法及系统,其中该方法包括主控节点服务器接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;在流处理业务运行过程中,各个计算...
- 陈岳亭禹晓辉
- 文献传递
- 基于半监督级联支持向量机的微博内容可信性检测
- 目前微博已成为人们用来发布和浏览信息最常用的社交工具。以新浪微博为例,其每天的微博产生量超过5000万条。同时因其具有信息发布迅速以及传播速度快的特点,所以对该平台上所传播的内容进行可信度检测就成为了所关注的研究热点。目...
- 杨帆禹晓辉
- 关键词:谣言
- 分布式流处理技术综述被引量:50
- 2015年
- 随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式应运而生.首先回顾分布式流处理技术产生的背景以及技术演进过程,然后将其与其他相关大数据处理技术进行对比,以界定分布式流数据处理的外延.进而对分布式流处理所需要考虑的数据模型、系统模型、存储管理、语义保障、负载控制、系统容错等主要问题进行深入分析,指出现有解决方案的优势和不足.随后,介绍S4,Storm,Spark Streaming等几种具有代表性的分布式流处理系统,并对它们进行系统地对比.最后,给出分布式流处理在社交媒体处理等领域的几种典型应用,并探讨分布式流处理领域进一步的研究方向.
- 崔星灿禹晓辉刘洋吕朝阳
- 关键词:大数据数据流分布式系统
- 英语情态句的情感倾向性分析被引量:2
- 2014年
- 该文研究了英语情态句的情感倾向性分析问题。情态句是英语中的常用句型,在用户评论文本中占有很大的比例。由于其独有的语言学特点,情态句中的情感倾向很难被已有的方法有效地分析。在该文中,我们借助词性标签进行了情态句的识别,并提出了一种情态特征用于帮助情态句情感倾向性的分析。为了进一步提高分析效果,我们还给出了通过合并同义情态特征来缓解情态特征稀疏性问题的方法。实验结果表明,在二元及三元情感倾向性分类问题上,该文提出的方法在F值上较经典分类方法分别有4%及7%的提高。
- 陈仲帅刘洋禹晓辉
- 关键词:情感分类
- 基于模式图的关键字查询改进方法
- 本发明公开了一种基于模式图的关键字查询改进方法,它包括以下步骤:步骤1.IR引擎模块借助于索引从数据库表导出需要的元组集,候选模块生成器把导出的元组集中的非空元组集和数据库模式图作为输入,生成一组候选网络,并把候选网络作...
- 禹晓辉高磊彭朝晖闫中敏杨敏
- 文献传递
- 观澜交通数据处理平台
- 2014年
- 近些年,城市中在主要路段和路口设置的交通卡口点及高清摄像头的数目呈增长趋势.对于大中型城市来说,这些摄像头将会产生海量包含通行记录和图像在内的数据.现有的基于传统关系数据库的解决方案已经无法有效地管理如此大规模的数据,也无法为数据的离线分析和实时处理提供具有高效及可伸缩性的保障.为了解决这一系列问题,我们开发了观澜交通数据处理平台(观澜平台).该平台可以为交通数据提供分布式、具有良好可伸缩性的处理支持.它集成了Apache Hadoop和S4开源框架,可以同时运行批处理任务和实时处理任务.观澜平台已经在国内某城市的生产环境中成功运行近两年,将会给出平台的架构说明以及在设计和开发过程中的一些收获.
- 董振禹晓辉崔星灿宋仁勇林立伟
- 关键词:交通数据数据处理系统大数据
- 交通数据中的会话识别
- 2016年
- 会话识别因其能够提供对用户行为模式的深入理解而备受关注。交通数据会话是指用户为了完成某个任务而经过的交通路口序列。该文中我们采用超时和统计语言模型两种方法来进行会话识别。超时方法主要考察相邻交通路口之间的时间间隔对会话识别的影响,而统计语言模型则考虑路口序列的全局规律性。我们在交通数据集上进行了大量的实验,并通过比较分析两种方法性能上的差异得知时间因素比全局规律性在会话识别中的影响更大。
- 娄新燕刘洋禹晓辉
- 关键词:会话识别统计语言模型
- 分布式多数据流频繁伴随模式挖掘被引量:11
- 2019年
- 多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能.
- 于自强禹晓辉董吉文王琳
- 关键词:多数据流
- 一种动态调整任务分配的流处理作业调度方法及系统
- 本发明公开了一种动态调整任务分配的流处理作业调度方法及系统,其中该方法包括主控节点服务器接收流处理作业,按照给定的参考并发度以及集群中可用资源及流处理作业的自身结构,生成初始任务分配方案;在流处理业务运行过程中,各个计算...
- 陈岳亭禹晓辉
- 文献传递