公共文化服务平台

2025年3月31日星期一

|

欢迎来到海南省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

搜索到229篇“ 网页信息抽取“的相关文章

网页信息抽取与分类方法及装置: 本发明提供了一种网页信息抽取与分类方法及装置，属于人工智能技术领域。网页信息抽取与分类方法，包括：将目标网页的源码转换为dom树；对所述dom树的每个结点进行处理，得到四个特征矩阵：文本特征矩阵、Xpath特征矩阵、la...; 叶甜甜黄毅冯俊兰邓超

基于语义和DOM特征的网页信息抽取方法的研究和实现: 伴随着互联网应用的快速发展以及近些年来UGC内容生产的持续繁荣,互联网已然成为历史上规模最大,覆盖领域最广的公共数据源之一。然而,互联网中的海量数据主要以HTML文件为载体,无法直接为数据处理程序使用。此外,出于商业运营...; 孙运琦; 关键词：网页信息抽取

网页信息抽取方法综述被引量：2: 2022年; 随着互联网的快速发展,网络中的信息正在爆炸式地增长,网页作为网络中信息表达的方式之一,其结构也变得越来越复杂。而如何精确、高效地从网页中获取目标信息成为一个问题。本文总结现有的针对网页的信息抽取方法并加以分类,同时分析其优缺点,最后对未来的研究内容进行展望。; 王立志; 关键词：信息抽取 WEB网页 DOM树

网页信息抽取方法、装置、电子设备及存储介质: 本发明提供一种网页信息抽取方法、装置、电子设备及存储介质，网页信息抽取方法应用于图文网页，图文网页至少包括图文正文，图文正文至少包括图文主体，网页信息抽取方法包括：获取待抽取图文网页，并将待抽取图文网页渲染为html格式...; 郭峰郝旭杰

一种网页信息抽取方法、装置、设备及存储介质: 本发明公开了一种网页信息抽取方法、装置、设备及存储介质，属于互联网技术领域。该方法包括：对待处理网页进行解析，得到目标树对象、以及所述目标树对象中节点对应的文本信息；基于目标标题分类器和目标实体分类器，分别对所述目标树对...; 周立运其他发明人请求不公开姓名

一种基于语义的网页信息抽取方法及系统: 本发明提出一种基于语义的网页信息抽取方法，包括：获取目标网页的目标DOM树，对该目标DOM树的目标骨架节点按句进行分裂，得到该目标DOM树的目标骨架子节点；以分类模型按目标任务语义对所有该目标骨架子节点进行分类，获得该目...; 郭岩王之威刘杨昊刘悦薛源海俞晓明沈华伟程学旗; 文献传递

一种基于多角度特征学习的主题网页信息抽取方法: 本发明涉及网页信息抽取技术领域，具体公开了一种基于多角度特征学习的主题网页信息抽取方法，且公开了本发明使用网页爬虫，获取页面的HTML源码，可以对页面的内容特征进行提取，包括标题、域名、IP归属地等。对于网页标题和网页内...; 刘丽娟闵宗茹巨星海黄勃南池淏张明金杜俊丽

一种基于网页信息抽取的高并发新闻采集系统: 随着互联网的飞速发展,新闻媒体也借助互联网传播速度快的特点实现了新闻传播更加快捷,新闻内容更加丰富的目标。传统新闻媒体已经随着互联网的转变成为了新媒体。然而面对网络上海量的新闻,如何快速、准确的抽取全网新闻文本数据,这对...; 韩建锟; 关键词：网络爬虫新闻采集信息抽取 XPATH

一种网页信息抽取方法及装置: 本发明实施例提供了一种网页信息抽取方法及装置，包括：根据网页的DOM树确定网页的候选元素以及文本信息；根据网页的展示页面截图确定网页的候选位置信息；根据各候选位置信息、各候选元素的文本信息确定各候选元素作为目标抽取元素的...; 梁俊蒋忠强全兵胡小克巴伟; 文献传递

一种网页信息抽取算法的研究与实现被引量：1: 2021年; 随着互联网上的信息资源日益丰富,数量上难以计数,几乎每一个网页都包含与关键信息无关的噪音信息。如果想要收集自己需要的信息,仅通过手工方式存储到数据库或者文档中,需要消耗大量的时间和人力来整理以及存储并且存在一定的难度。基于此,本研究选用windows系统作为开发平台,运用JAVA对网页信息抽取进行研究,实现一个基本、简略但具备可行性的算法。当前台通过关键字搜索,后台算法即会过滤噪音信息,自动抽取出智能及相关网站的信息并自动存储到数据库中。; 王孟博; 关键词：网页信息抽取信息过滤

加载更多 ∨

相关作者

程学旗: 作品数：664被引量：6,186H指数：28; 供职机构：中国科学院计算技术研究所; 研究主题：文本抽取大数据社交网络抽取方法

郭岩: 作品数：82被引量：396H指数：10; 供职机构：中国科学院计算技术研究所; 研究主题：网页抽取大规模网络抽取方法页面

张刚: 作品数：42被引量：106H指数：6; 供职机构：中国科学院计算技术研究所; 研究主题：分布式信息检索信息检索聚类 WEB信息采集包装器

丁国栋: 作品数：22被引量：126H指数：6; 供职机构：中国科学院计算技术研究所; 研究主题：信息检索查询扩展包装器网页信息抽取抽取

魏墨济: 作品数：51被引量：52H指数：4; 供职机构：山东省科学院; 研究主题：大数据词频文档分类文档网站