公共文化服务平台

2024年12月23日星期一

|

欢迎来到海南省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

俞昊旻: 作品数：6 被引量：2H指数：1; 供职机构：复旦大学更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

黄萱菁复旦大学计算机科学技术学院
张奇复旦大学计算机科学技术学院
张玥复旦大学计算机科学技术学院

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇期刊文章
2篇会议论文
1篇学位论文
1篇专利

领域

5篇自动化与计算...

主题

4篇拷贝
4篇拷贝检测
3篇文本
3篇句子
2篇索引
2篇特征提取
2篇分布式
2篇分布式索引
2篇MAP-RE...
1篇特征抽取
1篇特征提取算法
1篇文本特征
1篇文本特征提取
1篇文档
1篇和文
1篇MAPRED...
1篇MR
1篇抽取
1篇PD
1篇C-

机构

6篇复旦大学

作者

6篇俞昊旻
5篇张奇
5篇黄萱菁
4篇张玥

传媒

2篇中文信息学报
1篇第六届全国信...

年份

2篇2012
2篇2011
2篇2010

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

文档部分重复检测研究: 随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分...; 俞昊旻; 关键词：MAPREDUCE; 文献传递

面向文本拷贝检测的分布式索引被引量：2: 2011年; 如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引。为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性。为此该文比较了两种不同的分布式索引结构,Term-Split索引和Doc-Split索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split方法和Doc-Split方法。在WT10G文档集上进行的实验表明Doc-Split方法具有更好的效率和可扩展性。; 张玥俞昊旻张奇黄萱菁; 关键词：拷贝检测 MAP-REDUCE

基于Low-IDF-SIG的句子重复检测: 2011年; 随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。; 俞昊旻张玥张奇黄萱菁; 关键词：特征抽取

面向文本拷贝检测的分布式索引: 如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,...; 张玥俞昊旻张奇黄萱菁; 关键词：拷贝检测 MAP-REDUCE; 文献传递

基于句子级别的文本特征提取方法和文档拷贝检测系统: 本发明属于拷贝检测技术领域，具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法，选取一定数量的具有最低逆向文件频率的常见词汇作为先行词，以抽取改进的Shingle特征，...; 俞昊旻张奇黄萱菁; 文献传递

基于Low-IDF-SIG的句子重复检测: 随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分...; 俞昊旻张玥张奇黄萱菁; 关键词：拷贝检测; 文献传递

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@海南省图书馆 2014－2015 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张