俞昊旻
- 作品数:6 被引量:2H指数:1
- 供职机构:复旦大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 文档部分重复检测研究
- 随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分...
- 俞昊旻
- 关键词:MAPREDUCE
- 文献传递
- 面向文本拷贝检测的分布式索引被引量:2
- 2011年
- 如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此良好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,需要引入分布式存储的索引。为了适应文档集规模的不断增大,良好的分布式索引应该同时具备较高的效率和可扩展性。为此该文比较了两种不同的分布式索引结构,Term-Split索引和Doc-Split索引,并且给出了Map-Reduce范式下建立这两种索引的实现,以及以这两种索引为基础的文本拷贝检测方法,Term-Split方法和Doc-Split方法。在WT10G文档集上进行的实验表明Doc-Split方法具有更好的效率和可扩展性。
- 张玥俞昊旻张奇黄萱菁
- 关键词:拷贝检测MAP-REDUCE
- 基于Low-IDF-SIG的句子重复检测
- 2011年
- 随着互联网上数据的爆炸式增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的重复检测的算法均着重考虑文档级别,不能有效地检测出两个文档中只有一部分互为拷贝的情况。而句子级别的重复检测正是解决这类问题的一个必要步骤。该文提出了一种快速有效的句子级别的特征抽取方法——Low-IDF-Sig算法,算法依据选定的先行词从句子中抽取出改进的Shingle特征以表示句子内容。真实语料库上的实验结果证明该文提出的算法能有效地提高句子级别重复检测任务的效率和精度。
- 俞昊旻张玥张奇黄萱菁
- 关键词:特征抽取
- 面向文本拷贝检测的分布式索引
- 如何对大规模文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。通常的拷贝检测算法都需要借助倒排索引。因此好的索引结构对于算法性能至关重要。同时,随着文档集规模的增大,单机实现的索引已经不能满足拷贝检测的需求,...
- 张玥俞昊旻张奇黄萱菁
- 关键词:拷贝检测MAP-REDUCE
- 文献传递
- 基于句子级别的文本特征提取方法和文档拷贝检测系统
- 本发明属于拷贝检测技术领域,具体为一种基于句子级别的文本特征提取方法和文档拷贝检测系统。本发明提出的基于句子级别的文本特征提取方法,选取一定数量的具有最低逆向文件频率的常见词汇作为先行词,以抽取改进的Shingle特征,...
- 俞昊旻张奇黄萱菁
- 文献传递
- 基于Low-IDF-SIG的句子重复检测
- 随着互联网上数据的爆炸式的增长,互联网上产生了大量的重复数据。这些重复数据给搜索引擎、观点挖掘等许多Web应用带来了严峻的问题。目前绝大部分的拷贝检测的算法均着重考虑文档级别,这些方法不能有效地检测出两个文档中只有一部分...
- 俞昊旻张玥张奇黄萱菁
- 关键词:拷贝检测
- 文献传递