史亮
- 作品数:11 被引量:24H指数:3
- 供职机构:国家互联网应急中心更多>>
- 发文基金:国家科技支撑计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于文档序号处理的倒排索引表示方法及系统
- 本发明提供了一种基于文档序号处理的倒排索引表示方法及系统,其中方法包括:步骤1.将倒排记录表按文档序号升序或降序排列,获得排序后的倒排记录表,从排序后的倒排记录表提取多个文档序列;步骤2.计算所述多个文档序列的序列长度,...
- 史亮王斌李鹏李锐卫冰洁张帅
- 文献传递
- 分布式环境下基于ZooKeeper服务的数据同步研究
- 现有分布式环境下的数据同步技术缺乏有效控制机制来处理节点失效、同步失败等异常情况的特点,文章提出了基于ZooKeeper服务进行分布式环境下的数据同步架构.通过利用ZooKeeper提供的服务以自动处理上述同步异常.文章...
- 何慧虹王勇史亮
- 关键词:计算机网络分布式系统数据同步
- 一种数字信息推荐预测模型的训练方法和系统
- 本发明提供一种数字信息推荐预测模型的训练方法和系统,该方法包括:1)接收打分数据;2)确定数字信息的不同类别,每个类别中包括多个项目,其中所述类别之间存在关联关系;3)基于所述关联关系建立所述模型并训练获得所述模型,其中...
- 鲁凯王斌史亮李文娜李锐徐飞
- 文献传递
- 一种数字信息推荐预测模型的训练方法和系统
- 本发明提供一种数字信息推荐预测模型的训练方法和系统,该方法包括:1)接收打分数据;2)建立模型并利用所述打分数据训练所述模型,其中所述模型中包括打分时间段对用户的影响参数。本发明所训练的预测模型考虑到用户打分的时间与所打...
- 鲁凯王斌史亮李文娜李锐徐飞
- 文献传递
- 倒排索引中的文档序号重排技术综述被引量:4
- 2015年
- 倒排索引作为文本搜索的核心索引技术,广泛应用于搜索引擎、桌面搜索和数字图书馆领域。倒排索引由字典和对应的倒排表组成,倒排表一般采用差值存储和整数编码进行压缩。研究表明,当倒排表具有较好的局部连续性时,上述方法能够获得很高的压缩率。整数编码研究通过不断改进编码算法来充分利用倒排表的局部连续性特征,而文档序号重排正是一种对文档序号重新排列来产生局部连续性的技术。通过文档序号重排,索引压缩率得到显著提高。该文主要介绍近年来文档序号重排技术取得的研究成果:首先介绍索引压缩的基本原理,然后详细介绍文档序号重排技术,包括分析、对比各个方法的优劣;最后对文档序号重排技术进行总结、整理和展望。
- 史亮张鸿刘欣然王勇王斌
- 关键词:搜索引擎索引压缩
- 用于对倒排索引进行压缩的文档序号重排方法及其系统
- 本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:步骤1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;步骤2,利用所述第一顺...
- 史亮王斌卫冰洁张帅张冠元
- 文献传递
- 用于对倒排索引进行压缩的文档序号重排方法及其系统
- 本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:步骤1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;步骤2,利用所述第一顺...
- 史亮王斌卫冰洁张帅张冠元
- 文献传递
- 分布式环境下基于ZooKeeper服务的数据同步研究被引量:12
- 2015年
- 针对现有分布式环境下的数据同步技术缺乏有效控制机制来处理节点失效、同步失败等异常情况的特点,文章提出了基于ZooKeeper服务进行分布式环境下的数据同步架构。通过利用ZooKeeper提供的服务以自动处理上述同步异常。文章从同步速度、异常处理等方面进行了同步性能测试,实验数据分析表明该架构具有良好的控制机制,能较好地提高异常处理的自动化程度,从而获得较高的数据同步性能。
- 何慧虹王勇史亮
- 关键词:数据同步过程控制性能分析
- 一种融合聚类和时间信息的微博排序新方法被引量:8
- 2015年
- 随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中。同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%。
- 卫冰洁史亮王斌
- 关键词:聚类语言模型
- 一种数字信息推荐预测模型的训练方法和系统
- 本发明提供一种数字信息推荐预测模型的训练方法和系统,该方法包括:1)接收打分数据;2)确定数字信息的不同类别,每个类别中包括多个项目,其中所述类别之间存在关联关系;3)基于所述关联关系建立所述模型并训练获得所述模型,其中...
- 鲁凯王斌史亮李文娜李锐徐飞