江苏省高技术研究计划项目(G2004034)
- 作品数:3 被引量:23H指数:2
- 相关作者:何洁月郭太飞李选如更多>>
- 相关机构:东南大学更多>>
- 发文基金:江苏省高技术研究计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 使用ILP学习Web信息提取规则
- 2007年
- 归纳逻辑编程(ILP)可以用于学习各种形式的逻辑规则,但在尝试用于学习Web页面的信息提取规则时存在格式不匹配问题。给出了系统结构的数据流图,重点分析了格式不匹配问题,提出了一种解决方案,主要包括规则的语法定义和动态生长方法。生成的规则结构清晰,可以用于从Web页面提取信息。
- 郭太飞何洁月
- 关键词:归纳逻辑编程测试函数判别函数
- 语义集成:本体映射方法研究被引量:14
- 2007年
- 本体是客观世界知识的表现形式,随着语义Web研究的深入,研究者们构建了越来越多的本体,如何实现本体之间的知识共享和重用,成为了语义Web发展的关键。文中对本体映射的方法进行了研究,系统阐述了本体及本体映射的定义、本体映射中的相似度计算和本体映射框架等。如何减少本体映射中的人工干预,实现本体的半自动化或自动化映射将是该领域的发展方向。
- 李选如何洁月
- 关键词:本体本体映射语义WEB
- 归纳学习XPATH Web信息提取规则被引量:9
- 2007年
- XPATH在Web信息提取中起重要作用,但是这些XPATH规则通常要人工生成。文中讨论了在XPATH与基于文本上下文规则的信息提取方法结合的系统中如何归纳学习XPATH规则。生成的XPATH规则结构简单,可以为基于文本上下文的信息提取系统提供较为准确的信息定位。
- 郭太飞何洁月
- 关键词:信息提取系统