国家自然科学基金(61073129)
- 作品数:4 被引量:30H指数:3
- 相关作者:刘挺张宇宋巍李生都云程更多>>
- 相关机构:哈尔滨工业大学北京信息科技大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于微博分类的用户兴趣识别被引量:12
- 2013年
- 社会媒体成为用户分享与获取信息的重要平台。发现感兴趣的微博账户与信息是社交媒体平台最重要的活动,其关键问题在于用户兴趣模型的构建。提出基于微博分类的用户兴趣识别方法。首先人工构建目标分类体系,基于典型微博账户采集微博训练语料训练微博分类器,而后通过对用户微博进行分类识别出用户感兴趣的类别。实验表明基于典型主题类别微博,结合词语与主题的特征可有效进行微博分类达到86%的F值,输出的类别可准确表示用户兴趣。
- 宋巍张宇谢毓彬刘挺李生都云程
- 关键词:社会媒体主题模型用户建模个性化
- 基于URL主题的查询分类方法被引量:15
- 2012年
- 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性.
- 张宇宋巍刘挺李生
- 关键词:查询分类查询日志统计学习
- 基于随机游走模型的查询日志中命名实体挖掘被引量:3
- 2012年
- 提出了一种弱指导的方法从搜索引擎查询日志中挖掘命名实体。该方法中采用人工选择的少量命名实体名称作为种子,使用随机游走模型从查询日志中获得大量的命名实体。其中采用了查询日志中的实体上下文模板,用户点击URL和候选命名实体构建三分图,根据在该图上的随机游走计算候选命名实体属于指定目标实体类别的概率,从而在查询日志中获取该类别的命名实体。在真实的查询日志上对7个实体类别进行的实验,实验结果显示本文方法在各个类别上均获得较好的命名实体挖掘效果。
- 伍大勇刘挺
- 关键词:查询随机游走
- 面向问句检索的词项赋权研究
- 2013年
- 在社区型问答服务中,存在大量的由用户生成的问题及答案,一方面用户可以通过发布新问题,等待其他用户的回答;另一方面用户可以通过搜索与当前问题相关或者相似的问题,从而得到相应的答案。随着社区型问答服务的发展,用户更加关注问题检索服务的质量,因此如何合理并有效地检索出与用户当前问题相关或相似的问题,成为社区型问答服务的核心任务。对社区型问答服务中用户问题的特点进行了分析,提出一种确定问题中词项重要性的方法,从而改进传统问题检索模型中计算当前问题和候选问题集之间相关度的方法,提高问题检索质量。实验证明文中的方法在MAP、MRR及R-precision三项指标中均有提高。同时,分析了影响词项重要度的实验特征,得出最优的特征集合。
- 张伟男都云程张宇刘挺