蔡莉 作品数:8 被引量:103 H指数:5 供职机构: 复旦大学计算机科学技术学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 天文地球 艺术 文化科学 更多>>
签到数据的热点区域时空模式与情感变化的可视化分析 被引量:5 2018年 签到数据是包含经纬度位置信息和文本内容的微博数据,这些数据对于基础设施规划、土地价值评估和消费推荐都有十分重要的作用.本文提出了一种新颖的可视化交互系统CIDVis.CIDVis使用AC-DBSCAN算法对签到数据进行聚类,发现用户签到较为频繁的热点区域,并利用百度地图API动态展示这些区域的时空变化趋势,探索微博用户的签到模式.接着,利用中文分词,特征值提取等文本挖掘技术对微博内容进行情感评分,获得各个热点区域的用户情感倾向变化.同时,利用LDA模型执行隐含主题挖掘,发现微博主题的变化规律.以昆明市2015年7月-11月的新浪微博签到数据作为数据源,验证了该可视化系统的有效性.实验结果表明CIDVis系统提供多种直观、交互式的可视化组件,能帮助决策者分析微博用户的出行规律、情感变化和热点主题. 蔡莉 蔡莉 魏宝乐 周怡帆 李英姿关键词:可视化 情感分析 主题发现 大数据时代下非物质文化遗产的数据模型研究 大数据时代,越来越多的非物质文化遗产以文本、图形、图像、音频和视频等非结构化形式进行保存。由于非结构化数据存在分析困难、查询和使用不太方便等问题,很难有效挖掘这些数据背后的价值。针对现有非物质文化遗产在数据管理上的不足,... 蔡莉 胡洪斌 朱扬勇关键词:非物质文化遗产 数据模型 四面体 大数据 文献传递 数据质量的历史沿革和发展趋势 被引量:25 2018年 在互联网时代,数据成为了新的生产要素,也成为了基础性资源和战略性资源,同时还是重要的生产力。大数据服务业在全国广泛开展,数据交易所纷纷成立。这时,数据质量就逐渐变成制约数据产业发展的关键问题。首先,按照时间顺序将数据质量的研究内容划分为3个阶段,全面梳理和总结每个阶段的代表性成果,包括理论、方法、技术、工具和框架;然后,分析了在物联网、云计算和大数据环境下,数据质量研究所面临的各种挑战和机遇;最后,从数据质量模型、大数据质量管理、大数据质量相关技术、众包、物联网以及数据开放6个方面对数据质量的研究热点和发展方向进行了展望。 蔡莉 蔡莉 梁宇 朱扬勇关键词:数据质量 历史沿革 大数据 面向城市热点区域的不平衡数据聚类挖掘研究 被引量:10 2019年 在大数据时代,数据来源众多,因此多源数据的融合成为数据挖掘领域的一个研究热点。现有的多源数据融合研究主要聚焦于相同领域内平衡数据集的融合模型和算法,对来自不同领域的非平衡数据集的聚类挖掘关注较少。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法是挖掘热点区域的主要算法,但其无法处理不平衡的融合数据,少数类数据形成的聚类结果很难被发现。针对不平衡数据的融合,文中提出了一种基于时空特征的位置数据融合模型;同时,从数据层面和算法层面提出新颖的方法来解决不平衡数据的挖掘问题。鉴于目前的聚类算法的评价指标并不适用于不平衡数据的聚类结果评估,提出了一种新的综合评价指标来反映聚类质量。将来自交通领域的GPS轨迹数据(多数类数据)和社交领域的微博签到数据(少数类数据)进行融合,然后采用所提方法来挖掘热点区域。实验结果表明:基于多源数据融合的热点区域挖掘结果优于单源挖掘结果,所发现的热点区域位置、分布和数量与实际情况一致。文中所提出的融合模型、改进算法和评估指标法是有效且可行的,还可用于其他来源的位置数据的融合与分析。 蔡莉 蔡莉 江芳 梁宇关键词:不平衡数据 数据融合 数据标注研究综述 被引量:59 2020年 数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性这4个方面对数据标注的研究方向和发展趋势进行了展望. 蔡莉 蔡莉 刘俊晖 刘俊晖关键词:人工智能 众包 大数据 一种基于自适应网格划分和决策图的聚类算法研究 被引量:2 2019年 为了减少大规模数据集在聚类过程中的计算复杂度和运行时间,本文提出了一种基于自适应网格划分和决策图的聚类算法AGPCA.首先,采用相对熵自适应划分数据空间,形成明显的稀疏网格和稠密网格.将网格作为聚类对象,降低以点为对象之间的距离计算复杂度.之后,依据决策图思想确定簇心网格对象,并通过Kd树完成邻接网格的查找和合并以实现聚类.以多个标准数据集和真实的出租车GPS轨迹数据作为测试对象,并与现有一些先进的聚类算法进行对比实验.实验结果表明所提算法结合了网格划分和局部距离判断的优点,具有较高的准确性和运行效率. 蔡莉 蔡莉 许卫霞 梁宇关键词:决策图 聚类算法 相对熵 大数据时代下非物质文化遗产的数据模型研究 大数据时代,越来越多的非物质文化遗产以文本、图形、图像、音频和视频等非结构化形式进行保存.由于非结构化数据存在分析困难、查询和使用不太方便等问题,很难有效挖掘这些数据背后的价值.针对现有非物质文化遗产在数据管理上的不足,... 蔡莉 胡洪斌 朱扬勇关键词:非物质文化遗产 大数据 语义描述 基于层次分析法的众源地理数据质量评估研究 被引量:8 2021年 在分析开放街道地图(OpenStreetMap, OSM)数据特征的基础上构建了一个新颖的数据质量评估框架,该框架包括具体的评估指标、评估模型和评估流程。采用层次分析法确定了各个评估指标的权重,并使用ArcGIS评估昆明市OSM数据集的质量。结果表明,昆明市OSM数据质量一般,仅可在日常生活中应用,不太适合专业的科研领域。 蔡莉 蔡莉 王淑婷 彭昱忠 彭昱忠关键词:数据质量 层次分析法