教育部人文社会科学研究基金(10YJCZH052) 作品数:9 被引量:61 H指数:5 相关作者: 王荣波 黄孝喜 谌志群 王小华 周昌乐 更多>> 相关机构: 杭州电子科技大学 浙江大学 厦门大学 更多>> 发文基金: 教育部人文社会科学研究基金 国家自然科学基金 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 更多>>
基于最小方差的K-means用户聚类推荐算法 被引量:10 2018年 协同过滤推荐算法是一种传统的推荐技术,具有简单高效的特点,在实际中有广泛的应用,获得了大量研究者的青睐。虽然传统的协同过滤推荐算法在一定程度上缓解了用户当前所面临的信息超载问题,但其在处理大数据时存在的数据稀疏性和扩展性等问题却日益突出。于是,提出了一种基于最小方差的K-means用户聚类推荐算法。在缓解数据稀疏性方面,利用Weighted Slope One算法对初始用户—项目评分矩阵进行有效填充,降低了数据稀疏性;在提高算法扩展性方面,采用基于最小方差的K-means算法对用户评分数据进行聚类,将相似的用户聚到一起,减小目标用户的最近邻搜索空间,提高了算法扩展性。通过在Movie Lens数据集上的对比实验,结果表明,相比于传统的协同过滤推荐算法,改进算法具有更高的推荐准确度。 杨大鑫 王荣波 黄孝喜 谌志群关键词:信息过载 协同过滤算法 SLOPE 最小方差 基于LDA模型的移动投诉文本热点话题识别 被引量:9 2017年 【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题和热点话题,得出热点话题的支持文档率至少是一般话题的3倍,支持文档率变化趋势也比一般话题高,说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的,对今后此领域的研究具有一定的借鉴意义。 方小飞 黄孝喜 王荣波 谌志群 王小华关键词:K-MEANS LDA模型 皮尔斯符号学视角下的隐喻及其意义 被引量:13 2011年 隐喻是目前学术界广泛关注的研究话题。从本质上来说,隐喻是一种象似性程度比较低的亚象似符。它借助于自己的特征指示事物,即通过描述其他事物中的对应关系来体现事物的表象特征。隐喻是一种普遍现象,具有对应性、互动性和多模态性等认知特征。隐喻意义的理解是在人主观能动的基础上,通过本体和喻体的解释物之间的互动产生新的解释物而实现的。研究表明皮尔斯符号学理论对隐喻的认知意义理论构建有着指导意义。 王任华 周昌乐关键词:皮尔斯符号学 隐喻 本体 喻体 远程国际汉语教学的认知模式与教学资源研究 被引量:2 2012年 目前,远程国际汉语教学正在蓬勃发展,但远程教学在理论与实践方面也存在着一定的争议与问题,比较突出的是其质量保证体系不够完善、健全,因此,建立一套完整的远程国际汉语教学体系显得尤为必要。为此,有必要从认知理论体系中的认知编码、信息感知、情境认知和元认知四个维度来分析远程国际汉语教学认知模式的特点,建立以认知语言学与认知心理学理论为基础的远程国际汉语教学的新模式,进而针对远程国际汉语教学资源的开发,提出建立课程资源库、超文本和超媒体教学资源库、汉字基础数据库等建议,并对远程国际汉语教学评价体系进行了展望。 曹沸关键词:信息技术 教学资源 教学评价体系 基于主题模型的汉语动词隐喻识别 被引量:1 2016年 隐喻是人类语言不可缺少的组成部分,隐喻处理的好坏将直接影响到自然语言处理和机器翻译的发展,其中隐喻识别作为隐喻处理中基础性的工作,越来越得到研究者们的关注。目前,汉语隐喻识别的研究大部分都集中在短语级别的名词性隐喻的识别上,然而,实际文本中动词性隐喻出现的频率更高,更应该受到更多中文隐喻研究者们的重视。为了提高汉语隐喻的识别率,针对句子级别的汉语动词性隐喻,提出了基于主题模型的识别方法,将主题模型LDA(Latent Dirichlet Allocation)应用于汉语的动词隐喻识别过程中。该方法利用句子的主题分布作为特征,结合机器学习的方法对动词隐喻进行识别,得到的平均正确率为76.46%,在加入主题标注特征后,平均正确率达到80.42%。实验结果表明,基于主题模型的识别方法是有效的。 白振凯 黄孝喜 王荣波 谌志群 王小华关键词:主题模型 LDA 自然语言处理 微博关注关系网络K-核结构实证分析 被引量:13 2013年 为研究微博关注关系网络的特征,以新浪微博为例,引入复杂网络分析方法对微博关注关系网络进行实证分析。首先对微博关注关系网络进行K-核分解,获取微博核心用户关系网络。然后计算K-核网络基本参数、跟随比例和度相关性,发现其既具有在线社会网络的一般特征,也具有现实社会网络的一些特点。通过对K-核网络的社区检测及节点中心性、互惠性、中间人角色的分析,发现其网络结构具有明显的社区特性。该研究能够为相关应用提供实证基础。 白林根 谌志群 王荣波 黄孝喜关键词:复杂网络 基于改进CFSFDP算法的文本聚类方法及其应用 被引量:2 2017年 【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP算法,通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值,得到相对较高的局部密度和距离的聚类中心,减少离散点对数据中心选取的影响,并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明,在不同的数据集中,本文算法相对于基本的CFSFDP算法在准确率、召回率、F值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果,应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。 詹春霞 王荣波 黄孝喜 谌志群关键词:聚类中心 基于平均场理论的微博传播网络模型 被引量:10 2014年 微博是在通过用户关注机制建立的用户网络上分享实时信息的社交平台,而微博消息主要通过用户的转发行为使消息在用户网络上传播.掌握微博消息的传播机制,对研究微博上舆论谣言的传播、产品推广等具有指导作用.本文通过对微博传播网络的结构分析来探索微博传播过程,利用新浪微博数据,建立微博传播网络,分析该网络的生成机制,使用平均场论的方法,推导微博传播网络的度分布模型.实验结果表明:微博传播网络的度分布是时间相依的,在特定时间下网络的度分布服从幂律分布. 吴腾飞 周昌乐 王小华 黄孝喜 谌志群 王荣波关键词:复杂网络 无标度网络 平均场理论 一种基于词语抽象度的汉语隐喻识别方法 被引量:1 2015年 【目的】设计一种自动计算汉语词语抽象度的方法,并将其用在自然语言理解中的隐喻识别任务。【方法】以统计学习理论中逻辑回归为计算模型,把神经网络语言模型获取的词语词向量作为特征,通过构建抽象词库得到特征权重向量,计算汉语词语抽象度。提出一种基于词语抽象度的汉语隐喻识别算法,验证该方法的应用效果。【结果】通过与已有的方法进行实验对比,本文设计的汉语词语抽象度计算方法更接近于人的认知常识;并且在隐喻识别任务中,也体现出更好的准确率。【局限】词语词向量表示词语抽象程度有一些缺陷;抽象词语库的规模影响特征权重向量的学习。【结论】词语抽象度计算可以表现为人对概念的一种抽象分类能力,本文提出的汉语词语抽象度计算方法得到的结果能够较好地拟合人的认知,并且实验证明词语抽象度可有效提高隐喻识别的效果。 黄孝喜 张华 陆蓓 王荣波 吴铤