杨舟 作品数:5 被引量:9 H指数:1 供职机构: 苏州大学计算机科学与技术学院智能化信息处理技术研究所 更多>> 发文基金: 国家自然科学基金 江苏省基础研究计划 江苏省重大科技支撑与自主创新项目 更多>> 相关领域: 自动化与计算机技术 更多>>
Deep Web爬虫的一种增量式更新策略 被引量:1 2011年 为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最大限地的提高资源利用率。经实验验证,该方法取得了比较优异的结果。 卓林 杨舟 岳亮 赵朋朋 崔志明关键词:DEEP WEB 一种基于领域本体的Deep Web数据自动标注方法 2011年 为了准确全面地对Deep Web查询结果页面的数据进行语义标注,将领域本体作为Web数据库所应遵循的全局模式引入到语义标注的研究中,通过建立起接口模式、结果模式与本体间的映射来实现数据的自动语义标注。针对多个不同领域的Web数据库进行实验测试,证明了该方法是有效的。 杨舟 岳亮 卓林 赵朋朋 崔志明关键词:DEEP WEB 本体 基于二维混合条件随机场的Web记录抽取模型 2011年 提出一种基于混合二维条件随机场的Web记录抽取模型,以克服线性链条件随机场不能充分利用Web实体间二维依赖关系的缺点,且训练条件随机场模型时无需大量手工标注的样本数据。对当当网上的742个数据记录进行抽取,对比同等情况下的其他模型。实验结果表明,混合二维条件随机场模型在抽取TDS数据集时展现了更优越的性能。 卓林 杨舟 赵朋朋 崔志明关键词:条件随机场 信息抽取 一种针对商品数据记录的自动抽取方法 被引量:8 2010年 提出一种针对电子商务网站商品列表页数据记录的自动抽取方法。该方法根据商品记录的特点,通过商品记录中商品的文本、图片以及布局等节点类型信息计算节点对应的值,依据节点值的相似度对节点进行分组,再从不同分组中过滤出包含数据记录节点的集合,从而抽取整个页面的数据记录。实验结果证明该方法有效且抽取效率较高。 杨舟 卓林 赵朋朋 崔志明关键词:WEB信息抽取 数据抽取 信息集成 一种面向Deep Web集成服务的查询结果动态排序方法 2011年 Deep Web集成服务的快速发展,方便了用户对Deep Web信息检索需求。如何提高查询结果的排序效果,将最接近用户查询的结果显示给用户,逐渐成为研究重点。提出了一种综合评判方法,从数据源质量、查询相关度以及查询响应反馈三个方面,综合计算出查询结果的评价分值,并用于查询结果排序,具有较好的可行性和有效性。 岳亮 杨舟 卓林 赵朋朋 崔志明关键词:数据源选择 TF-IDF