佛山市科技发展专项基金(2011AA100061)
- 作品数:7 被引量:12H指数:2
- 相关作者:钟勇胡小生张润晶马莉霍颖瑜更多>>
- 相关机构:佛山科学技术学院更多>>
- 发文基金:佛山市科技发展专项基金佛山市产学研专项基金广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种两层加权融合的排序算法
- 2012年
- 当前排序学习算法在学习时将样本集中的所有查询及其相关文档等同对待,忽略了查询之间以及其相关文档之间的差异性,影响了排序模型的性能。对查询之间的差异进行分析,同时考虑文档排序位置造成的资料被检视概率不同的差异特性,提出了一种两层加权融合的排序方法。该方法为每一个查询及其相关文档建立一个子排序模型,在此过程中,对文档赋予非对称权重,然后通过建立新的损失函数作为优化目标,利用损失函数调节不同查询产生损失之间的权重,最终实现多查询相关排序模型的加权融合。在标准数据集LETOR OHSUMED上的实验结果表明,所提方法在排序性能上有较大提升。
- 胡小生钟勇
- 关键词:信息检索
- DTL-Real-Time Object-Z形式化规格说明语言及其责任授权模型描述被引量:2
- 2014年
- Object-Z语言缺乏完整的时态描述能力,如无法表达操作在特定时间之后执行或按某种周期执行等,也不具有操作补偿等概念。针对这些问题,在Object-Z中集成实时概念和分布式时态逻辑,提出DTL-Real-Time Object-Z规格语言,该语言能有效地描述操作的时态驱动、事件驱动、操作补偿等因素,分析和说明了该语言的语法和语义,最后通过对责任授权模型的形式化描述说明了该语言的表达能力和应用。
- 马莉钟勇霍颖瑜
- 关键词:形式化描述语言OBJECT-Z
- 基于加权聚类质心的SVM不平衡分类方法被引量:4
- 2013年
- 不平衡数据分类是机器学习研究的热点问题,传统分类算法假定不同类别具有平衡分布或误分代价相同,难以得到理想的分类结果.提出一种基于加权聚类质心的SVM分类方法,在正负类样本上分别进行聚类,对每个聚类,用聚类质心和权重因子代表聚类内样本分布和数量,相等类别数量的质心和权重因子参与SVM模型训练.实验结果表明,该方法使模型的训练样本具有较高的代表性,分类性能与其他采样方法相比得到了提升.
- 胡小生钟勇
- 关键词:不平衡数据分类支持向量机
- 基于责任策略的非严格实时系统形式化研究
- 2014年
- 严格实时系统行为的实时性要求具有不可更改性,非严格实时系统的实时性要求则具有延缓性、替代性以及可补偿性特征,现有的形式化规格说明语言多集中在对严格实时系统的研究,对非严格实时系统的这些特征则缺乏描述能力。针对上述问题,使用一种Object-Z扩展语言来描述非严格实时系统,该方法采用扩展的Object-Z历史不变式表达责任策略,能有效地描述非严格实时系统中的缺省策略、补偿策略以及其他非严格实时策略。以会议系统为例,说明该方法能形式化描述非严格实时行为,具有较强的实用性。
- 马莉钟勇霍颖瑜
- 关键词:形式化规格说明
- 改进随机子空间与决策树相结合的不平衡数据分类方法
- 2013年
- 提出一种改进随机子空间与C4.5决策树算法相结合的分类算法。以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出。实验结果表明,该方法对少数类和多数类均具有较高的识别率。
- 胡小生
- 关键词:不平衡数据分类决策树
- 两层聚类的类别不平衡数据挖掘算法被引量:6
- 2013年
- 类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。
- 胡小生张润晶钟勇
- 关键词:数据挖掘不平衡数据K均值聚类
- 基于聚类分析的改进堆叠算法被引量:1
- 2013年
- 在基于Stacking框架下异构分类器集成的元学习基础上,将无监督的聚类应用到分类过程中,提出一种基于聚类分析的改进Stacking集成算法。训练样本首先被基分类器分类,随后分类结果被聚类成多个簇,以便分类结果相一致的样本能够被聚集至同一个簇中,同时,将样本特征属性也应用到聚类过程中以增强聚类效果,在每个聚簇内应用C4.5决策树算法提炼决策边界;在分类阶段,首先找出与待分类样本距离最近的聚簇,之后用此聚簇的决策树模型进行分类。实验结果表明,该算法在分类准确性方面有明显优势。
- 胡小生张润晶钟勇
- 关键词:分类器集成STACKING聚类元学习