陈少飞
- 作品数:9 被引量:95H指数:4
- 供职机构:河北大学数学与计算机学院更多>>
- 相关领域:自动化与计算机技术更多>>
- Web信息抽取规则的优化及规则的XQuery表达
- 随着Internet的飞速发展,World Wide Web已经发展成为全球传播与共享科研、教育、商业和社会生活等方面最重要和最具潜力的信息资源。而以HTML标记语言发布的Web信息面向显示,缺乏模式信息和语义信息,为了...
- 陈少飞
- 关键词:XML信息抽取语义模式XQUERY
- 文献传递
- Web信息抽取规则的优化
- 1引言随着Internet的飞速发展,Web上信息量急速膨胀。HTML因具有简单、易用、表现力强等特点,目前在Web上仍占据主流地位。但是,以该格式发布的Web信息面向显示,缺乏模式信息和语义信息,应用程序无法直接解析使...
- 陈少飞郝亚南李天柱张志强张波
- 关键词:XQUERY
- 文献传递
- 基于语义的数据格式转换被引量:6
- 2004年
- 本文提出了一种基于语义的数据格式转换方法。该方法以Word文档为例,采用基于学习的策略,自动地将Word文档转换为具有语义信息的XML文档,便于用户对大量Word文档进行精确的基于语义的查询和管理;该方法支持所见即所得,易于使用。
- 郝亚南陈少飞李天柱袁方
- 关键词:数据格式转换WORD文档XML文档所见即所得文档转换
- 基于XPath的Web信息抽取的设计与实现被引量:16
- 2003年
- 提出了一种基于XPath的Web信息抽取方法,鉴于目前还没有免费的商用XPath引擎可用,于是利用DOM定制了一个XPath引擎,实现了Web信息抽取。该文着重介绍了原型系统的工作原理和实现中所采用的具体技术,该方法可用于Web查询和包装器的构造,也可用于格式转换。
- 杨文柱徐林昊陈少飞郝亚南李天柱
- 关键词:XPATHWEB信息抽取文档对象模型
- 基于文档结构的信息抽取规则的描述语言比较研究被引量:1
- 2004年
- 基于文档结构的信息抽取工具很多 ,XWrap ,W 4F ,Lixto以及自主开发的PQagent是其中比较有代表性的几个 .这几个工具采用了不同的规则描述形式 ,XWrap ,W 4F ,Lixto使用的是自定义的规则描述形式 ,PQagent采用了通用的规范XQuery来描述规则 .现将XWrap ,W 4F ,Lixto使用的规则描述形式与PQagent采用的XQuery进行比较 ,说明了采用XQuery描述抽取规则的优越性 .
- 张志强李天柱张波陈少飞郝亚南
- 关键词:信息抽取抽取规则描述语言XQUERY
- 个性化的智能Web查询助手的设计与实现
- 1引言如何对Web信息进行准确有效的查询,是Web查询系统急需解决的问题,不同研究领域的研究人员对此问题的解决有着不同的侧重点,大致分为三类:
- 杨文柱徐林昊郝亚南陈少飞李天柱
- 文献传递
- Web信息抽取技术研究进展被引量:62
- 2003年
- Web信息抽取技术是当今的一个研究热点。目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能。本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题。
- 陈少飞郝亚南李天柱徐林昊杨文柱
- 关键词:WEB信息抽取技术HTMLXMLWEB查询抽取规则
- 数据交换中的数据格式转换被引量:9
- 2003年
- 随着Web应用的迅速发展 ,如何进行Web上各系统之间的数据交换成为一个十分重要的问题 .其中的核心是Web上的各种数据格式之间的相互转换 .本文以XML作为数据交换的中介 ,从语法和语义 2个角度出发 ,分析和比较了现有Web上的HTML ,Word及PDF的数据格式以及它们同XML之间的相互转换技术 .
- 郝亚南陈少飞李天柱
- 关键词:XMLHTMLWORDPDF
- 基于XPath的Web信息抽取
- 1引言以HTML发布的Web信息面向显示,缺乏模式信息和语义信息,为了更有效地管理和组织Web信息,实现对Web信息高效的查询与检索,XML及其相关规范随之诞生了。XML将Web信息的语义与显示分离开来,通过自定义带有语...
- 徐林昊杨文柱陈少飞郝亚南李天柱
- 关键词:HTMLXMLXPATH
- 文献传递