冯时 作品数:16 被引量:260 H指数:8 供职机构: 教育部 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于LDA的潜在语义区划分及Web文档聚类算法 被引量:19 2011年 该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。 刘振鹿 王大玲 冯时 张一飞 方东昊关键词:LDA 潜在语义 文档聚类 一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法 被引量:15 2012年 微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微博数据进行提纯,成为一个亟待解决的问题。基于统计数据分析了噪音微博和相似微博的特点,提出一种面向微博文本流的噪音判别和内容相似性双重检测的过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。实验表明该方法能有效地对微博数据进行提纯,高效准确地过滤掉相似微博和噪音微博。 王琳 冯时 徐伟丽 杨卓 王大玲 张一飞MICA:一个面向微博数据流的观点挖掘原型系统 被引量:6 2011年 微博客是一种新的信息载体和传播途径,比传统的博客、论坛等载体具有更多新的特点,实时性(随时发布、更新)和多模态性(包含文字、图像、视频等)是其中的2个主要特点.设计并实现了一个面向微博数据流的、集即时下载各模态信息和分析观点倾向于一体的观点挖掘原型系统MICA(microblog item crawling and analyzing),设计并使用WeiBoAPI(微博编程集成应用接口)从腾讯、新浪等网站实时抓取微博数据,针对其中文本内容进行情感倾向性分析,针对其中的图像数据进行特征抽取,并为进一步的多模态观点挖掘打下基础. 阳锋 冯时 王琳 李任斐 王大玲 于戈关键词:情感分析 基于情感词典扩展技术的网络舆情倾向性分析 被引量:68 2010年 随着Web2.0时代的到来,网络已逐渐成为反映社会舆情的重要载体之一,网络舆情发现及网民的观点和倾向性挖掘也成为新的研究热点,但是目前尚无有效反应网民对热点事件或话题总体态度的舆情分析系统.本文针对网民关于话题评论简单、数目众多的特点,应用HowNet和NTUSD两种资源对现有情感词典进行扩展,建立了一个新的、具有倾向程度的情感词典.基于扩展的情感词典,开发了一个半自动化网络舆情分析系统.该系统能够为用户提供更加细致。 杨超 冯时 王大玲 杨楠 于戈关键词:情感词典 网络舆情 一种面向情感分析的微博表情情感词典构建及应用 被引量:15 2012年 表情符号作为一种新的网络语言,在微博中被广泛采用,在一定程度上代表了用户的情绪和思想,也将影响微博情感倾向分析的结果。该文提出基于微博统计数据为表情符号构建情感词典的思想,通过对大量微博中与表情"共现"的文本的情感倾向分析,确定表情的情感倾向,以此构建面向情感倾向分析的表情情感词典,旨在为微博乃至其它采用表情符号的Web用户生成信息的情感倾向分析提供支持。进而,该文将表情情感词典反作用于对应的微博文本,重新度量其中情感词的倾向值,改进现有的情感词典,旨在获得更准确的情感倾向分析结果。实验表明了该方法的有效性,并分析了相关阈值的设置对结果的影响。 王文远 王大玲 冯时 李任斐 王琳关键词:表情符号 情感分析 一种基于核心节点扩展的社区挖掘算法 被引量:6 2016年 在充分考虑网络中节点间的连接关系和节点的影响力的基础上,提出一种基于核心节点扩展的社区挖掘算法。算法分为三个阶段:首先,网络中的前k个核心节点逐层向外扩展,直至覆盖网络中大部分节点,各核心节点与其多层邻居节点组成候选初始社区;然后,对候选初始社区进行重叠处理,计算候选初始社区两两之间的重叠度,将重叠度高于阈值的两个社区中相对小的社区删掉,形成初始社区;最后,计算初始社区间的重叠节点和不在初始社区中的节点到各个初始社区的连接度,将连接度最大的节点加入相应社区,不断迭代,直到网络中所有节点都划入到相应社区内,形成最终社区结构。试验结果说明了本文方法的有效性和灵活性,相比GN算法和FN算法,能够实现准确的网络划分;相比Hub算法和Top Leaders算法,由于对候选初始社区间进行了重叠处理,对预置的社区数量k在一定范围内不敏感。 刘井莲 王大玲 赵卫绩 冯时 张一飞关键词:连接度 基于多模态特征深度融合的微博流事件检测与跟踪 被引量:5 2019年 作为一种重要的社会媒体平台,分析、检测并跟踪微博内重大社会事件可以及时提供舆论焦点。但因其碎片化、异构性和实时性,传统方法很难有效分析海量微博,为此,提出一种基于多模态特征深度融合的微博事件检测与跟踪框架。首先基于文本处理对微博事件进行标注;然后用多模态特征深度融合实现事件的检测与表示;最后利用基于时间平滑的图变换模型完成事件流的跟踪。在真实数据集上的实验表明,所提出的方法能有效检测和跟踪微博流事件。 熊宇 张一飞 张一飞 王大玲关键词:多模态 基于依存句法的博文情感倾向分析研究 被引量:35 2012年 博客作为一种用户发表其观点和看法的载体已成为Web上一个重要的情感抒发与交流平台,博文搜索为这种交流提供了方便快捷的途径.很多时候,用户进行博文搜索时更关注作者对事件所持的观点或情感,但目前的博文搜索返回结果大多基于主题而非情感倾向.基于此提出一种基于句法依存分析技术的算法SOAD(sentimentorientationanalysisbasedonsyntacticdependency)对博文搜索结果进行情感倾向性分析.基于SOAD算法,构建了一个中文博文搜索原型系统,对博文搜索结果进行再处理.实验证明,一方面,SOAD算法在分析博文情感上具有更大的优势;另一方面,建立的原型系统实现了依据情感倾向返回搜索结果的目标. 冯时 付永陈 阳锋 王大玲 张一飞关键词:依存句法分析 情感分析 一种面向度中心性及重叠网络社区的发现算法 被引量:9 2016年 针对社会网络中存在较多以度中心节点为中心并且具有多社区重叠节点的网络社区结构,提出了一种面向度中心性及重叠网络社区的两阶段发现算法。第一阶段发现初始社区:选取度最大的Top-k个节点作为候选中心节点,并将每个节点与其邻居节点形成候选初始社区,其中如果某候选社区与已形成的初始社区的重叠度低于阈值,则形成一个新的初始社区;第二阶段调整社区划分:通过偏离度机制进行调整,将偏离度最大值对应的节点划分到连接紧密的相应社区内,形成最终社区划分。实验表明,该方法不仅能够揭示网络中以某个节点为中心的密集的社区结构,还能有效处理初始社区不同程度的重叠问题。相比现有算法,所提方法对预先输入的候选初始社区数k值不敏感,并具有较高的准确性和灵活性。 刘井莲 王大玲 赵卫绩 冯时 张一飞关键词:社会网络 偏离度 社会媒体多模态、多层次资源推荐技术研究 被引量:6 2014年 社会媒体中多模态和多层次的信息资源和基于各种关系构建的用户社群为推荐系统提供了更广阔的分析和选择空间,同时也带来了更多的问题与挑战。分析了当前社会媒体中用户与资源的关系以及社会媒体资源推荐的特点,分别从社会媒体资源推荐策略和相关支撑技术两方面综述了相关工作,将其概括为"社会媒体中用户角色的变化构成了更加复杂的用户关系"、"社会媒体资源表示形式呈现多模态特点"以及"社会媒体资源推荐应该满足多层次的用户需求",并从多模态、多层次资源推荐方面提出进一步的研究方向。 王大玲 冯时 张一飞 于戈关键词:社会媒体