国家自然科学基金(61070015)
- 作品数:26 被引量:412H指数:6
- 相关作者:齐德昱林伟伟张倩李拥军陈锐忠更多>>
- 相关机构:华南理工大学华南师范大学广东第二师范学院更多>>
- 发文基金:国家自然科学基金广东省自然科学基金广东省科技计划工业攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- Overcomplete ICA和SVM结合的人脸识别
- 2012年
- 提出一种混合Overcomplete ICA人脸特征提取和SVM分类的人脸识别算法:基于Over-complete ICA的人脸特征提取方法,所得到的基图像数目是要多于源图像数目;同时结合支持向量机(SVM)是统计理论的学习方法,通过构造最优超平面使得具有最佳的分类效果。通过比较分析,该算法比最小距离分类方法能够得到更好的结果。
- 黄海庞涛李拥军刘晓军
- 关键词:人脸识别特征提取支持向量机
- 基于Impala的大数据查询分析计算性能研究被引量:12
- 2015年
- 分析了Cloudera公司推出的Impala实时查询引擎原理与架构,并深入比较Impala与传统MapReduce的性能与特点,针对Impala进行复杂大数据处理方面的不足,提出了MapReduce与Impala结合的大数据处理方法,通过使用MapReduce对Impala的输入数据进行预处理,利用MapReduce在复杂作业处理方面的长处弥补了Impala在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于MapReduce与Impala结合的大数据处理速度比传统MapReduce快了一倍。特别地,在迭代查询实验中,基于MapReduce与Impala结合的处理方法超过传统MapReduce方法八倍以上。基于MapReduce与Impala结合的处理方法在单次查询中的效率仍然高于传统MapReduce;而在迭代查询中,MapReduce与Impala结合的处理方法远远地超过了MapReduce。因此,MapReduce与Impala结合的处理方法能够发挥Impala和Hadoop各自的优点,让处理效率远超传统MapReduce,对于复杂的大数据处理的能力高于Impala。
- 郭超刘波林伟伟
- 关键词:大数据HADOOPMAPREDUCEIMPALA查询分析
- 基于Span方法和多叉解码树的实体关系抽取
- 2023年
- 实体关系抽取作为自然语言处理领域的一项关键技术,在构建知识图谱、信息检索等领域有着极为重要的意义。然实体关系抽取模型普遍存在词与词之间依赖性运用不足、实体识别效果低下以及单解码带来的三元组强行执行某种不必要顺序的问题。为了解决这三个方面的问题,提升模型的性能,提出了一种新的实体关系抽取模型。该模型首先运用提取特征能力更强的BERT预训练模型获取句子表征,然后采用图卷积神经网络来增强实体与关系之间的依赖关系,再使用对实体提取能力更强的Span方法(识别实体的神经网络方法)进行实体抽取,最后采用深度多叉解码树实施并行解码得到相应的关系三元组。在CoNLL04、ADE数据集上的实验结果表明,与其他的关系抽取基线模型相比,该模型的F1值具有较好的提升,同时也验证了该文模型的有效性与泛化能力。
- 张鑫冼广铭梅灏洋周岑钰刘赢方
- 关键词:关系抽取
- 一种面向片上众核处理器的虚拟核资源分配算法被引量:1
- 2018年
- 基于高效能大任务和多任务计算需求以及芯片技术的高速发展,多核处理器进入片上众核处理器时代,但如何将这种硬件能力转变成计算性能的提升,充分利用MPSo C的并行计算能力是该领域亟待解决的问题.文中研究设计了面向片上众核处理器的物理核到虚拟核分配算法(VPD),该算法通过识别任务执行时的阶段状态特征,动态重组物理核并配置成与任务计算需求相适应的虚拟核,在满足任务的计算资源需求的条件下,实现虚拟核最优分配.最后通过实验将VPD算法与不同的多核/众核处理器环境下的主流调度算法进行比较,结果表明:该算法可适用于多种环境,且效能比其他同类算法平均高5%~10%.
- 沈阳齐德昱周娜琴王新阳
- 关键词:资源分配
- 大数据研究综述被引量:164
- 2014年
- 主要从大数据的概念着手,对比分析了国内外大数据研究和应用现状,重点分析比较当前大数据主流处理工具的优缺点,并深入归纳总结了基于数据存储的大数据处理技术、基于数据挖掘的大数据处理技术、基于查询的大数据处理技术的优缺点和适用场景。最后,在前面比较和分析的基础上给出了大数据研究和发展的方向,为大数据的研究提供有益参考。
- 涂新莉刘波林伟伟
- 关键词:大数据数据处理数据挖掘
- 基于Hadoop的高效经济云存储系统
- 为了解决现有的云存储技术存在的投入成本高、数据存储效率差、数据安全可靠性和资源利用率低等问题,本文提出一种基于Hadoop的高效经济云存储系统,利用分布式计算开源框架Hadoop、高效资源调度方法、基于概率冗余的可靠调度...
- 林伟伟刘波
- 关键词:HADOOP资源调度
- 文献传递
- 异构多处理机环境下独立任务在线调度研究
- 2019年
- 分布式计算系统越来越多地被应用于高性能计算中,面向分布式计算系统的任务调度问题已经证明是一个NP完全问题.基于异构多处理机环境,针对独立任务进行在线任务调度研究.利用一种基于加权最早完成时间的异构多处理机任务调度模型以及相应的任务调度算法(wEFT算法),选择最早完成时间最小或加权链接数最小的处理机执行任务.通过实验证明,对比独立任务调度算法在不同任务数任务调度跨度指标,wEFT算法的性能要明显优于LC算法、wLC算法、RR算法、wRR算法.
- 刘林东
- 关键词:多处理机任务调度
- 一种改进的随机森林Boost多标签文本分类算法被引量:1
- 2022年
- 针对目前Boosting算法计算成本高、学习时间长的问题,提出一种改进的随机森林提升(RF-Boost)算法(IRF-Boost)。对训练特征进行排序;在每个Boosting轮中,过滤并使用排序靠前特征的较小子集;根据权重选择一个特征构建新的弱假设,弱假设搜索空间的大小从k降低至1。实验检验并分析了信息增益、卡方、GSS系数、互信息、优势比、F1得分和准确度共7种特征排序方法。实验结果表明:在所评价的特征排序法中,互信息最适用于RF-Boost;IRF-Boost的效率优于RF-Boost及AdaBost.MH,即IRF-Boost是解决实践应用和专家系统中分类问题的较好选择。
- 邵孟良齐德昱
- 关键词:BOOSTING算法文本分类
- 一种改进的关联规则挖掘算法研究被引量:4
- 2018年
- 传统的关联规则Apriori算法在产生频繁项集的过程中,需要多次扫描事务数据库以及多次扫描频繁项集,从而造成算法性能下降.为了减少扫描事务数据库以及频繁项集的次数,在生成的候选k项集中,除了存储项集item-set以及支持度计数count之外,加入事务标识符列表Tidlist属性,在生成频繁k项集时,可以直接通过Tid-list的交集得出事务标识符列表以及项集的计数,不需要去扫描事务数据库,从而可以有效地提高算法的性能.文中提出了一种改进的关联规则挖掘模型以及关联规则挖掘算法I-Apriori算法.实验证明,I-Apriori算法相比Apriori算法的执行时间有明显改进.
- 刘林东齐德昱
- 关键词:关联规则频繁项集候选集事务数据库计数
- 基于fuzzy TOPSIS的资源服务优化选择算法被引量:2
- 2012年
- 为了提高用户满意度,需要在大量具有相同或相似功能的资源服务中筛选出满足用户需求的最优资源服务,从而实现资源服务的增值。以三角模糊数表达用户对资源服务非功能QoS评价为基础,在考虑用户的感知和交易经验的同时,综合考虑了资源服务非功能QoS评价合成中的各种因素(如时间、用户信誉度、评价一致性等)的影响,结合模糊(fuzzy)理论以及逼近理想解排序,进而提出了基于fuzzy TOPSIS的资源服务优化选择算法。实验结果表明,该算法具有较高的准确度,并可在一定程度上抵制恶意评价对资源服务质量评价的影响。
- 张倩齐德昱
- 关键词:服务质量三角模糊数