辽宁省科学技术基金(20072031) 作品数:4 被引量:21 H指数:2 相关作者: 张斌 高克宁 马安香 张引 齐鹏 更多>> 相关机构: 东北大学 更多>> 发文基金: 辽宁省科学技术基金 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
基于评论修正的博客聚类算法 被引量:2 2010年 博客聚类是处理博客信息的有效方法,提出基于评论修正的博客页面聚类算法.首先分析博客所包含的信息层次结构,然后利用博客页面的通用属性构建博客属性模型,基于博客属性模型对博客页面进行聚类,并且在初次聚类的基础上利用博文的评论对聚类结果进行修正.采用通用的熵和纯净度来衡量聚类结果,根据评论利用方式的不同,设计了两种实验方案:一个实验直接使用评论参与聚类,另一个将评论作为聚类后的修正手段.实验结果对比表明,在大多数情况下,利用评论作为修正手段的聚类效果要优于直接利用评论参与聚类. 郭朋伟 高克宁 张斌关键词:聚类 聚类算法 基于结果模式的Deep Web数据集成 被引量:1 2010年 Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的DeepWeb数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础. 马安香 张斌 张引 高克宁 孙达明关键词:DEEP WEB数据集成 基于结果模式的Deep Web数据抽取 被引量:19 2009年 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 马安香 张斌 高克宁 齐鹏 张引关键词:DEEP WEB 数据集成 数据抽取 语义标注 基于CPN网络的Deep Web数据语义标注 2009年 全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web数据语义标注.同时,采取了一种有效的方法准确获取Deep Web结果页面中的属性值,为语义标注奠定了良好的基础.与同类成果相比,基于CPN网络的Deep Web数据语义标注方法提高了语义标注的准确率及召回率. 马安香 高克宁 张晓红 张斌关键词:DEEP WEB数据集成 语义标注 特征选取