石雁
- 作品数:3 被引量:5H指数:2
- 供职机构:江南大学物联网工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于协同相似计算的查询推荐被引量:3
- 2016年
- 单个用户历史搜索点击数据具有稀疏性特点,容易导致查询推荐不准确和无法提供多样性查询的问题。为此,提出将每个用户的查询日志作为文档,利用空间向量模型计算文档间的相似度,并将用户在历史数据中对链接的点击频率作为对链接的偏好评分,采用改进的欧氏距离计算用户的最近邻居,计算出当前用户的相似用户集,将相似用户历史行为数据扩充到单个用户数据中。基于朴素贝叶斯模型训练数据并预测查询-链接的点击率,将其作为权重用于点击图中,应用点击传播产生查询推荐。实验结果证明该方法可获得较高的准确度和平均精度均值。
- 石雁李朝锋
- 关键词:查询推荐最近邻向量空间模型欧氏距离朴素贝叶斯
- 基于朴素贝叶斯点击预测的查询推荐方法被引量:3
- 2016年
- 查询推荐作为一种改善用户查询体验和效率的重要方式,可以帮助用户筛选并提供更加准确的查询描述。目前很多查询推荐方法主要集中在热门推荐或是基于相似度匹配的推荐上,忽略了用户的查询意图,无法有效提供个性化推荐。为此,基于对用户查询点击日志进行分析与挖掘,训练出一个朴素贝叶斯模型,针对用户输入的查询,根据历史数据预测其与URL的点击率,再利用二分图将URL的预测点击值平均分配给相对应的每个查询项,最后结合Jaccard相似度和时间相关因子综合分析用户当前输入的查询与历史中查询的相关度,并给出推荐。实验证明了该方法的可行性并取得了较好的推荐效果。
- 石雁李朝锋
- 关键词:查询推荐用户日志朴素贝叶斯二分图
- 结合统计和词间关系的文本关键词计算方法
- 2015年
- 在中文文本相似去重中的关键词计算和提取阶段,文本分词后,存在高维、稀疏和缺乏语义词项,而这些大多没有实际意义的词会给计算带来噪音,不利于文本去重。为此,需要提取文本特征,使该特征能够表示文本的主要内容。针对此问题,提出了一种结合词频、词项间互信息关联度及其语义相似度的改进的关键词提取方法。该方法综合考虑候选词的统计特征、词项间的相关度和相似度,并将此方法应用于Sim Hash文本相似计算模型中。实验结果表明,基于该模型的特征提取在相似文本去重计算上有着较高的准确率、召回率和F1值,优于传统方法。
- 石雁李朝锋
- 关键词:文本特征互信息特征提取