曾金
- 作品数:8 被引量:38H指数:4
- 供职机构:武汉大学信息管理学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 面向用户评论的主题挖掘研究——以美团为例被引量:7
- 2022年
- 【目的/意义】从海量自助餐用户评论数据中抽取有效关键词构建主题和主题词,协助商家了解用户口碑,进而更好的改善餐饮行业的管理水平。【方法/过程】通过融合TF-IDF、TextRank和LMKE三种不同的关键词抽取方法获取最优关键词,再对抽取的关键词进行语义聚类、主题识别、主题词挖掘和主题权重计算,最后在采集的美团数据集上进行验证方法的有效性。【结果/结论】实验结果表明,三种关键词抽取方法的融合比单个关键词算法效要好,文本评论聚类后的主题分别是:味道、菜品、环境、服务、价格,主题的重要程度依次是:味道36.2%、服务22.9%、价格15.1%、环境13.6%、菜品12.2%。实验结果证实,通过该方法能够有效识别和构建主题及主题词,并计算出用户对于不同主题关注的重点内容,同时为餐饮行业主题及主题词挖掘和应用研究提供了一定的理论和技术基础。【创新/局限】提出一种半监督语义聚类的主题识别、主题词构建和主题权重评估方法;不足之处在于本次实验仅以武汉地区的美食自助餐评论为主,其构建的主题适用性范围有限。
- 曾金张耀峰黄新杰黄廷海
- 关键词:关键词抽取主题挖掘聚类分析
- 基于图像语义的用户兴趣建模被引量:3
- 2017年
- 【目的】社交网络环境下的用户兴趣建模是好友推荐、精准营销的关键,利用微博用户分享的图像,提出一种基于图像语义的用户兴趣建模方法,旨在更加准确地预测用户的真实兴趣。【方法】在获取新浪微博用户图像数据的基础上,使用图像的高层语义表达用户兴趣特征,基于这些特征使用SVM训练得到图像语义分类器进行预测。【结果】实验结果表明,本文建立的模型能够较为准确地预测用户真实兴趣,169位用户分类的准确率达到97.38%,召回率为98.92%,F值为98.14%。【局限】由于实验图像数据集有限,未能完整地覆盖用户所有的兴趣类别。【结论】该模型能够基于用户分享的图像较为准确地预测用户兴趣,表明了图像高层语义的有效性,同时为图像高层语义应用研究提供了一定的理论和技术基础。
- 曾金陆伟丁恒陈海华
- 关键词:图像语义用户兴趣建模社交网络支持向量机
- 基于多模数据的微博用户好友推荐研究被引量:8
- 2019年
- 【目的/意义】基于社交媒体用户分享的图像、博文及用户标签数据,为用户推荐潜在的好友,从而更好的为用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的基础上,通过使用深度学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于这三类特征组合,通过计算用户之间的余弦相似度来挖掘与目标用户兴趣最相近的若干个候选用户。同时,探讨了多模数据在无监督学习下的用户推荐问题,并与单模数据进行比较。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户的兴趣进行建模并进行好友推荐较单模数据效果好。
- 曾金贺国秀
- 关键词:社交网络
- 面向用户评论的关键词抽取研究——以美团为例被引量:7
- 2019年
- 【目的】通过自动从海量用户评论中抽取有效关键词,帮助用户和商家快速有效地发现有价值的信息,从而更好地为用户购买行为提供决策支持,为商家改善服务质量提供信息反馈。【方法】界定面向用户评论的关键词抽取的问题定义,从商家和用户两个角度提出面向用户评论的关键词抽取的评价准则;提出一种基于语言模型的用户评论关键词抽取方法(LMKE),采集美团网用户评论构建实验数据集,并与TF-IDF和TextRank两种关键词抽取方法进行对比。【结果】LMKE方法在P@5、P@10、P@20、n DCG@5、nDCG@10和nDCG@20的最高得分分别为0.7665、0.6701、0.6200、0.8187、0.7326和0.6743。【局限】实验仅以美团网武汉地区自助餐厅的所有用户评论为例,具有一定的局限性。【结论】相较于TF-IDF和TextRank,LMKE方法的效果更优,且在LMKE方法中基于区分度的策略能获得最优评价指标。
- 张震曾金
- 关键词:关键词抽取
- 基于多模数据的微博用户兴趣识别研究被引量:10
- 2018年
- 【目的/意义】通过社交媒体用户分享的图像、博文及用户标签进行数据挖掘,来判断和预测用户的真实兴趣,从而更好地为用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的基础上,通过使用机器学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于三类特征使用SVM训练得到分类器进行用户兴趣类别预测,主要比较单模数据和多模数据的分类指标,探讨多模数据在有监督学习下的发多分类问题。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户兴趣进行分类识别,F值达到77%,比最好的单模数据提升10%。实验结论证实,多模(图像、博文和标签)数据与单模数据相比,提升了分类效果,同时为多模数据应用研究提供了一定的理论和技术基础。
- 曾金陆伟陆伟陈海华
- 关键词:社交网络数据挖掘
- 一种分布式Online Judge系统设计与实现
- 2023年
- 为解决计算机编程课程传统课堂中教学案例枯燥、教学个性化不足、学生上机作业抄袭、上机作业批改量大等问题,设计基于学生提交编程代码实现实时自动检测及打分的在线程序测评系统。该系统除解决上述问题外,还可帮助学生解决上机教学环境中知识点掌握不扎实的问题,使学生快速积累编程经验、提升算法能力及时间空间取舍决策能力。同时,也可以在该系统上展示学生解决问题的思维过程和算法能力,从而帮助学生开拓新的学习视角。该系统可清晰展示作业从提交、检测、成绩批改到指出问题的全过程,为测验学生编程知识掌握程度,提供一种有效的验证分析方法,并在数据可视化方面构建较为独特的评测体系。
- 曾金曾金彭玲毛志斌
- 关键词:DJANGODOCKER分布式系统
- 网站新闻人物图像情感倾向研究被引量:4
- 2018年
- 【目的/意义】对网站新闻图像情感进行识别可以追踪时事热点及舆情分析,还可以为企业、政府等机构提供重要决策依据。【方法/过程】以GDELT Project提供的VGKG(全球视觉知识图)新闻事件图像数据库作为原始数据来源,抽取霍芬顿邮报、英国广播公司、福克斯新闻频道、美国有线电视新闻网、路透社、彭博社六个新闻网站2017年1月报道的18203条新闻中34401张人物图像,对图像情感倾向进行计量分析。【结果/结论】研究结果表明:六个主流新闻网站图像中人物面孔识别非常清晰,拍摄角度以正面拍摄为主,且图像的情感倾向于较平淡和冷静。说明新闻中的图像既较为客观真实地报道了新闻事实,又较好地正面引导了舆论,本文为网站新闻人物图像情感倾向应用研究提供了一定的理论和技术基础。
- 曾金陆娜胡潇戈陈海华
- 关键词:网站新闻
- 面向用户评论的店面画像构建研究——以美团网为例
- 2023年
- [目的/意义]从美团餐饮用户评论数据中构建店面画像评价维度和店面画像得分,助力门店提升数字化和智能化管理水平,实现用户价值深度挖掘及门店最大化收益。[方法/过程]首先抽取关键词进行BERT词向量表示,通过高斯混合维度聚类、维度识别及维度词挖掘来构建店面画像评价维度,然后构建领域情感词典和句法分析获得维度词得分,最后为构建的店面画像进行打分。[局限]不足之处在于本次实验仅以武汉地区的美食自助餐评论为主,其构建的行业适用性范围有限。[结果/结论]构建维度分别是:味道、环境、服务、菜品、价格,画像维度得分:5.0、2.13、2.1、1.31、1.0。实验结果证实,该方法能够有效构建店面画像,且构建的各维度得分与语料库得分具有一致性,实验表明该构建方法能取得良好效果。
- 曾金黄新杰黄廷海
- 关键词:情感词典