王连喜
- 作品数:32 被引量:392H指数:12
- 供职机构:广东外语外贸大学图书馆更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究基金广东省科技计划工业攻关项目更多>>
- 相关领域:自动化与计算机技术文化科学经济管理理学更多>>
- 基于特征相关性的特征选择被引量:16
- 2010年
- 提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作为最终的特征子集。理论分析表明该方法的运算效率高,时间复杂度低,适合于大规模数据集中的特征选择。在UCI数据集上与文献中的经典方法进行实验比较和分析,结果显示提出的特征选择方法在特征约减和分类等方面具有更好的性能。
- 蒋盛益王连喜
- 关键词:相关度特征聚类
- 面向微博的社会情绪词典构建及情绪分析方法研究被引量:18
- 2015年
- 该文旨在探索一种面向微博的社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中。首先通过手工方法建立小规模的基准情绪词典,然后利用深度学习工具Word2vec对社会热点事件的微博语料通过增量式学习方法来扩展基准词典,并结合HowNet词典匹配和人工筛选生成最终的情绪词典。接下来,分别利用基于情绪词典和基于SVM的情绪方法对实验标注语料进行情绪分析,结果对比分析表明基于词典的情绪分析方法优于基于SVM的情绪分析方法,前者的平均准确率和召回率比后者分别高13.9%和1.5%。最后运用所构建的情绪词典对热点公共事件进行情绪分析,实验结果表明该方法是有效的。
- 蒋盛益黄卫坚蔡茂丽王连喜
- 关键词:社会情绪词典情绪分析
- 一种面向高校图书馆的个性化图书推荐系统被引量:32
- 2015年
- 个性化图书推荐主要是以用户特征和借阅行为为挖掘对象,通过获取用户的兴趣特征及隐含的需求模式,实现用户与图书相互关联的个性化图书推荐服务。本文通过挖掘用户的背景信息构建用户特征模型,然后在设计喜好值计算、用户相似度计算和内容相似度计算以及标签信息获取方法的基础上,研究多种不同的图书推荐方法,以挖掘用户的潜在信息需求。最后利用图书馆的真实数据设计面向高校图书馆的个性化图书推荐系统,同时以标准网络数据集通过实验验证来评估推荐方法的有效性。
- 王连喜
- 关键词:推荐系统个性化需求图书推荐
- 面向分类特征的无监督特征选择方法研究被引量:5
- 2011年
- 针对分类特征数据给出一种新的特征重要性程度度量方法.以一趟聚类算法为基础,提出一种无监督特征选择方法.理论分析表明该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择.在UC I数据集上的实验结果表明,与文献中的经典方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效可行的.
- 王连喜蒋盛益
- “一带一路”:研究热点与新兴主题发展分析被引量:6
- 2019年
- [目的/意义]"一带一路"倡议自2013年被习近平主席提出以来就得到了学者们的广泛关注,明晰该领域的研究热点和新兴主题发展对于研究人员了解和把握研究现状及发展趋势具有非常重要的意义。[方法/过程]选取CSSCI数据库中以"一带一路"为主题的期刊论文为研究对象,以共词聚类方法和新兴主题识别方法为分析手段,对该领域的研究热点和新兴主题发展进行分析。[结果/结论]虽然"一带一路"研究在近几年出现了许多新兴关键词和新兴主题,但目前已形成了7个比较稳定的热点研究领域,并且在各个热点领域的研究中不仅从宏观层面考虑了区域与国别研究、实施对策等方面的问题,还从微观层面考虑了不同领域中的具体问题。此外,还对"一带一路"研究的未来发展方向进行了探讨。
- 王连喜王连喜李霞蒋盛益
- 关键词:一带一路
- 国内外知识组织研究内容与发展——基于《图书情报工作》与Knowledge Organization期刊论文的比较分析被引量:4
- 2017年
- 知识组织一直是图书情报学领域的重要课题,相关研究也在不断突破与发展以实现知识的有效查询与获取。本文以《图书情报工作》和Knowledge Organization(《知识组织》)2009—2016年期刊论文为研究对象,运用文献计量分析和比较分析的方法,从生产主体、知识基础、研究主题三个角度对比分析了国内外知识组织领域研究现状与进展。研究表明,计算机科学和知识管理是国内知识组织研究重要的学科基础,对应着技术导向和管理导向两种研究路径;国外则十分关注传统知识组织的内容及其在不同语种、领域和资源类型等新环境中的应用,且非常重视从社会文化与哲学等抽象层面思考知识组织的本质与基础。本文通过管窥国内外知识组织发展现状及差异,以期能够帮助国内研究者更加清晰地认识与界定知识组织的内涵与范围,更好地把握未来的研究方向。
- 曹树金王志红王连喜
- 关键词:知识组织研究主题知识基础
- 国内微博研究热点分析及主题挖掘——以计算机和图书情报学科为研究对象被引量:14
- 2015年
- 以CNKI数据库中计算机和图书情报学科的核心期刊论文及硕博士学位论文为研究对象,以共词分析法和主题模型为工具,首先从数据集中提取并确定能够反映当前国内关于微博研究的重要关键词,然后采用SPSS的层次聚类法和LDA主题挖掘模型分别对共词矩阵和主题词向量进行定量分析,归纳出国内微博研究的热门知识点和重要主题,并对研究热点和研究主题进行宏观剖析,认为当前国内微博研究主要呈现出用户、内容和应用的三层结构特点。最后通过比较热点分析与主题挖掘的结果发现,国内的主要成果集中在微博内容层面的研究,涉及了情感分析、短文本处理、信息处理技术、主题发现、事件检测和信息挖掘等几个方面。
- 王连喜李霞
- 关键词:共词分析主题挖掘LDA
- 基于二阶段聚类的重叠社区发现算法被引量:3
- 2015年
- 针对当前复杂网络重叠社区发现的热点问题,提出基于二阶段聚类的重叠社区发现算法.对网络邻接矩阵进行特征分解时,节点投影到k维欧氏空间后,对节点先后进行硬聚类和软聚类,高效自适应地挖掘网络中的重叠社区结构.在硬聚类阶段中,引入基于距离最小原则的一趟聚类算法对节点进行自适应的硬划分,确定软聚类阶段中的聚类中心和网络的社区数量.在软聚类阶段中,引入以模糊模块度为目标函数的模糊C均值算法,通过迭代优化模糊模块度实现对节点的软划分,挖掘网络中的重叠社区结构.在多个真实网络数据集上的实验验证文中算法能高效挖掘复杂网络中的重叠社区结构.
- 蒋盛益杨博泓李敏敏吴美玲王连喜
- 关键词:模糊聚类
- 面向企业微博的客户细分框架被引量:1
- 2016年
- 【目的】为有效解决微博客户特性的表示问题,以更好地实施企业微博客户细分。【方法】借助微博平台上客户的个人和社会关系特性,利用客户及其好友的自定义标签表示客户的特性,采用基于非负矩阵分解的文本聚类方法,提出一种面向企业微博的客户细分框架。【结果】实验结果表明,基于非负矩阵分解的方法取得约86.130%的asw指标平均值,远远超出基于K-means和层次聚类的方法。【局限】只通过融合微博客户个人及其关注好友的标签表示微博客户特性的方法不能够全面刻画客户特征。【结论】能够为企业微博客户细分中的客户特性的表示、细分、评价及结果可视化等问题提供参考和借鉴。
- 陈东沂周子程蒋盛益王连喜吴佳林
- 关键词:客户细分文本聚类非负矩阵分解
- 知识发现系统的相关性排序与主题聚类功能问题探析被引量:4
- 2015年
- 文章以Primo、EDS和Summon 3种较为常用的发现系统为分析对象,总结发现系统检索结果的相关性排序与主题聚类功能的基本原理和特点,进而就检索结果在相关性排序及主题聚类功能拓展方面所面临的用户满意度提升问题、主题聚类数量划分问题、多语言检索排序问题,以及资源的智能化推荐问题展开讨论,并针对存在的问题提出解决思路。
- 王连喜
- 关键词:知识发现系统主题聚类多语言PRIMOEDSSUMMON