陈韶刚
- 作品数:3 被引量:2H指数:1
- 供职机构:沈阳建筑大学信息与控制工程学院更多>>
- 发文基金:国家自然科学基金辽宁省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Web的实例扩展与属性值扩充方法被引量:1
- 2014年
- 实例扩展与属性值扩充是Web抽取与集成领域中的一个重要研究课题,将Web数据列表和实例建模成二分图,根据扩展实例的质量分数,对扩展集合进行迭代更新直到扩展集合的质量分数最大,且扩展集合不再更新来实现实例的扩展。同时,为了完善扩展实例的属性信息,对结构化数值属性或离散属性进行抽取,提出了基于整数线性规划的属性值扩充方法。实验表明,与以前的方法相比,本方法能更好地处理含有噪声数据的Web网页,并提高了抽取的准确率和召回率。
- 李贵陈韶刚韩子扬李征宇孙平孙焕良
- 关键词:整数线性规划
- 基于概率模型的包装器健壮性优化方法
- 由于web数据的动态性,使得脚本生成的网页结构经常发生变化而导致包装器失效.为提高包装器的健壮性,本文引入一种健壮的抽取框架,并根据HTML树节点编辑操作的概率分布,从Web页面进化的文档数据集中学习得到页面进化的概率模...
- 李贵陈韶刚韩子扬李征宇孙平孙焕良
- 关键词:包装器网页信息抽取
- 文献传递
- 面向领域的Web数据抽取与集成被引量:1
- 2013年
- 面向领域的Web数据挖掘包括领域Web数据抽取和领域Web数据集成。针对领域数据抽取,提出了Web结构数据模型和Web表模式,给出了Web表定位和数据记录抽取的算法,针对领域Web数据集成,提出了基于领域模型的数据集成算法。结合行业领域的实际需求,验证了模型和算法的有效性。
- 李贵李征宇陈韶刚韩子扬孙平孙焕良