搜索到940篇“ 正文内容“的相关文章
一种基于网页正文内容的问题式查询推荐方法
本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成...
毛先领赫宇欣黄河燕
基于预训练语言模型的网页正文内容提取方法及系统
本发明实施例公开了一种基于预训练语言模型的网页正文内容提取方法及系统,所述基于预训练语言模型的网页正文内容提取方法包括:对网页HTML进行预处理;对预处理后网页HTML中的文本信息和结构信息分别进行编码;将编码后的所述文...
岂凡超
一种web网页的正文内容提取方法、装置、设备及介质
本申请公开了一种web网页的正文内容提取方法,包括:根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;按照预设规则对各网页内容进行监听埋点,并统计用户...
马晓峰范渊
一种清洗页面正文内容中被植入广告的方法
本发明提供了一种清洗页面正文内容中被植入广告的方法。本发明提出了基于光学字符识别(OCR)与自然语言处理技术(NLP)结合的方法来对页面正文内容的广告进行清洗,能够广泛适用不同页面、复杂背景的广告图片清洗。本发明提出的基...
朱海峰颜小君蒋伟伟
一种基于neo4j图形数据库自动提取网页正文内容的方法
本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括:步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合;步骤S102,提取HTML标签并将HTML源码转换为树形结...
刘亮李萧洋郑荣锋李孟铭
一种基于网页正文内容的问题式查询推荐方法
本发明提出了一种基于网页正文内容的问题式查询推荐方法,属于计算机网络信息检索查询推荐技术领域。所述基于网页正文内容的问题式查询推荐方法依托的查询推荐系统包括问题式查询生成模块和问题式查询推荐模块,包括以下步骤:S1,生成...
毛先领赫宇欣黄河燕
文献传递
一种清洗页面正文内容中被植入广告的方法
本发明提供了一种清洗页面正文内容中被植入广告的方法。本发明提出了基于光学字符识别(OCR)与自然语言处理技术(NLP)结合的方法来对页面正文内容的广告进行清洗,能够广泛适用不同页面、复杂背景的广告图片清洗。本发明提出的基...
朱海峰颜小君蒋伟伟
文献传递
一种基于neo4j图形数据库自动提取网页正文内容的方法
本方法公布了一种基于neo4j图形数据库自动提取网页正文内容的方法。本方法包括:步骤S101,利用模拟浏览器请求技术从开源渠道获取网页的HTML源码作为训练集合;步骤S102,提取HTML标签并将HTML源码转换为树形结...
刘亮李萧洋郑荣锋李孟铭
文献传递
网页正文内容获取方法、装置、计算机设备及存储介质
本申请涉及数据采集领域,具体使用了数据爬取技术,采用网络爬虫的方式进行爬取,并公开了一种网页正文内容获取方法、装置、计算机设备及存储介质,对爬取的待处理网页进行空白部分和文字部分的保留处理以得到预留content内容,将...
王涛朱葛
文献传递
一种web网页的正文内容提取方法、装置、设备及介质
本申请公开了一种web网页的正文内容提取方法,包括:根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;按照预设规则对各网页内容进行监听埋点,并统计用户...
马晓峰范渊
文献传递

相关作者

吴淑燕
作品数:28被引量:233H指数:8
供职机构:中国移动通信集团公司
研究主题:搜索方法 搜索 竞争情报 网页 个性化信息
钟新斌
作品数:18被引量:0H指数:0
供职机构:中国农业银行股份有限公司
研究主题:流数据 网页页面 正文内容 存储介质 模糊逻辑推理
张勇
作品数:14被引量:0H指数:0
供职机构:中国农业银行股份有限公司
研究主题:网页页面 正文内容 抽取方法 备份系统 分布式应用
曹震
作品数:20被引量:0H指数:0
供职机构:中国农业银行股份有限公司
研究主题:网页页面 正文内容 关系网络 客户 转账
陈星
作品数:185被引量:130H指数:6
供职机构:福州大学
研究主题:卸载 软件体系结构 混合云 适应度函数 自适应