您的位置: 专家智库
>
资助详情>
国家重点基础研究发展计划(2012CB316303)
国家重点基础研究发展计划(2012CB316303)
- 作品数:10 被引量:754H指数:5
- 相关作者:程学旗郭嘉丰张瑾刘悦许洪波更多>>
- 相关机构:中国科学院中国科学院大学国家互联网应急中心更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 在线社交网络中的新兴话题检测技术综述被引量:5
- 2016年
- 新兴话题检测是社交网络研究的热点问题之一。在线社交网络特别是微博的开放性,给话题的流行和爆发提供了前所未有的便利条件。新兴话题是即将流行或爆发的话题,往往伴随着重大的事件或新闻的发生,会产生重大的社会影响,如何在早期识别此类话题,是新兴话题检测研究的主要内容。该文回顾了近年来在新兴话题检测方面的主要进展,分析了新兴话题检测领域面临的挑战,阐述了相关的概念、方法和理论,重点从内容突发特征和信息传播模型两个方面对影响新兴话题检测的方法进行了分析和讨论,并对新兴话题检测的前景做了展望。
- 笱程成杜攀刘悦程学旗
- 关键词:信息传播社交网络
- 面向跨领域情感分类的统一框架被引量:10
- 2013年
- 文本的情感分类问题,即判断文本中的论断是持支持态度还是反对态度.已有的研究表明,监督分类方法对情感分类很有效.但是多数情况下,已有的标注数据与待判断情感类别的数据不属于同一个领域,此时监督分类算法的性能明显下降,由此产生的即为跨领域情感分类问题.为解决此问题,提出一个统一框架,分多阶段进行跨领域情感分类:首先利用训练域文本的准确标签来得到测试域文本的初始标签;然后将测试域建成一个加权网络,将一些较准确的测试文本作为"源点"和"汇点",进一步利用热传导思想迭代进行跨领域情感分类.实验结果表明,此方法能大幅度提高跨领域情感分类的精度.
- 吴琼刘悦沈华伟张瑾许洪波程学旗
- 关键词:情感分类
- 融合全局词语边界特征的中文命名实体识别方法被引量:6
- 2017年
- 目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。
- 刘冰洋伍大勇刘欣然程学旗
- 关键词:命名实体识别
- 基于因果模型的主题热度计算与预测方法被引量:8
- 2016年
- 网络是目前最重要的信息传播渠道,其自由性和丰富性使得信息迅速传播。挖掘网络中的热点主题对政府政策的制定、企业经营决策的调整可以提供强有力的支持,并能够满足网民对热点主题的关注需求。主题数量的庞大使得主题热度值的计算尤为重要,该文分析热度的形成原因,基于因果模型并采用面板数据,给出一种较为客观可行的主题热度计算模型。该模型使用易于获取的数据进行计算,给出较为客观的热度度量,进而便于不同主题、不同日期间的热度对比。在此基础上,通过对热度变化规律的考察,提出一种基于多峰高斯曲线拟合热度变化进行主题热度预测的思路。
- 杜慧郭岩范意兴张瑾余智华程学旗
- 关键词:面板数据
- 基于传播模拟的消息流行度预测被引量:3
- 2014年
- 社交网络中的消息流行度预测问题对于信息推荐和病毒式营销等应用具有重要意义。该文提出了一种基于传播模拟的消息流行度预测方法,首先使用最大熵模型学习并预测用户转发消息的概率,然后使用独立级联传播模型在真实的社会网络上模拟消息的传播过程,从而完成消息流行度的预测。该方法的优点在于更充分的利用了社会网络的结构和用户特征信息。该文在Twitter数据集上的实验结果表明,相对于基准方法,该文提出的方法具有更高的准确率和稳定性。
- 万圣贤郭嘉丰兰艳艳程学旗
- 关键词:最大熵模型
- 基于概率交易模型的线下百货推荐
- 2016年
- 该文提出了一种新颖的概率交易模型PTM,针对线下百货进行个性化的推荐。传统的推荐模型,如K-近邻算法、矩阵分解等,或者仅利用局部的数据,使得模型面临线下数据极大的稀疏性挑战,或者忽略百货数据中的交易维度,使得模型损失了同一交易中多商品共现的强相关信息,最终导致它们在面对线下百货推荐问题时性能低下。针对以上的问题,本模型从交易的维度出发,建模交易记录中的共现模式,并利用全局的交易数据来学习商品的相关分量,在此基础上推断出用户的兴趣分布,实现个性化的推荐。在真实的线下百货交易数据上的实验结果表明,该模型能够极大地提高线下百货领域个性化推荐的准确性。
- 王鹏飞郭嘉丰兰艳艳晏小辉程学旗
- 关键词:PTM
- 一种领域合成词的抽取方法
- 2014年
- 构建领域本体的首要任务是获取领域相关的概念,这些概念很多是由常用词典库中没有收录的领域合成词组成,因此抽取领域合成词对于领域本体的构建至关重要。本文基于语言规则和统计技术,提出一种结合改进互信息和语言模板的领域合成词抽取方法。首先利用改进的互信息算法抽取由多字词单位构成的高频次候选领域合成词,在此基础上,利用语言模板匹配抽取低频次候选领域合成词,最后由专家进行检验,得到领域合成词集。实验结果表明,该算法的领域合成词提取准确率达到88.22%,适用于从大规模网页文本中自动高效地抽取领域合成词。
- 刘剑
- 关键词:领域本体互信息
- 网络大数据:现状与展望被引量:713
- 2013年
- 网络大数据是指"人、机、物"三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法.文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望.
- 王元卓靳小龙程学旗
- 关键词:大数据数据挖掘社会计算
- 基于多特征融合和图匹配的维汉句子对齐被引量:2
- 2016年
- 维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。
- 倪耀群许洪波程学旗
- 关键词:句子对齐多特征融合
- 基于查询意图的长尾查询推荐被引量:7
- 2013年
- 查询推荐是一种提升用户搜索效率的重要工具.传统的查询推荐方法关注频度较高的查询,但对于那些频度较低的长尾查询,由于其信息的稀疏性而难以产生好的推荐效果.另外,传统的方法由于没有考虑查询意图对推荐结果的影响,故对长尾查询的推荐会受到查询中噪声单词的影响.该文提出了一种新的关于词项查询图(term-query graph)概率混合模型,该模型能够准确地发掘出用户的查询意图.另外,文中还提出了一种融合查询意图的查询推荐方法,该方法可以将新查询中单词的推荐结果按查询意图自然地融合起来,从而避免了噪声单词对推荐结果的影响.实验结果表明,通过考虑查询意图,可以显著提高长尾查询推荐的相关性.
- 白露郭嘉丰曹雷程学旗
- 关键词:查询推荐查询意图