国家自然科学基金(61070026)
- 作品数:10 被引量:38H指数:4
- 相关作者:谭建龙郭莉刘燕兵刘金刚刘兴奎更多>>
- 相关机构:中国科学院中国科学院研究生院首都师范大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向深度包检测的DFA细粒度并行匹配方法被引量:5
- 2014年
- 确定性有限自动机(DFA)是实现正则表达式匹配的一种有效手段,但DFA的状态跳转是串行的,导致匹配速度慢、难以满足高速骨干网环境深度包检测(DPI)的性能需求.提出了一种称为LBDFA(Loopback DFA)的细粒度并行化状态跳转方法,通过将在Loopback状态上的连续跳转并行化,提高了匹配速度.此外,利用Bloom filter消除该并行跳转中的临时偏离现象,进一步提高了并行潜力.在L7-filter以及Snort规则集上的测试结果表明,LBDFA能够满足10Gbps以上的正则表达式匹配需求.
- 刘兴奎邵宗有刘新春孙凝晖
- 关键词:正则表达式深度包检测
- 轻量级的自学习网页分类方法被引量:2
- 2014年
- 提出了一种自学习的轻量级网页分类方法 SLW。SLW首次引入了访问关系的概念,使其具有反馈和自学习的特点。SLW从已有的恶意网页集合出发,自动发现可信度低的用户和对应的访问关系,从而进一步利用低可信度用户对其他网页的访问关系来发现未知的恶意网址集合。实验结果表明,在相同数据集上,相比于传统检测方法,SLW方法可以显著提高恶意网页检测效果,大幅降低平均检测时间。
- 沙泓州周舟刘庆云秦鹏
- 关键词:黑名单恶意网页
- 基于FPGA的正则表达式匹配算法综述被引量:1
- 2011年
- 分析了基于硬件正则表达式匹配的优势,介绍了基于现场可编程门阵列(FPGA)的正则表达式匹配算法的基本思想和设计方法,从匹配速度和资源利用率两个技术指标的角度对现有算法进行分类,综述了当前的主流算法并分析了其优缺点,最后论述了目前基于FPGA正则表达式匹配算法设计的难点并展望了未来研究的发展趋势。
- 唐球姜磊谭建龙刘金刚
- 关键词:有穷自动机现场可编程门阵列正则表达式入侵检测
- 一种基于子串识别的多模式串匹配算法被引量:1
- 2011年
- 多模式串匹配算法是网络内容过滤系统的核心技术。巨大的存储空间开销是制约多模式匹配串算法应用的瓶颈之一。提出一种基于子串识别的多模式匹配算法—HashBOM,该算法利用位哈希表存储模式串的子串信息以大幅度减少存储空间,利用递归哈希函数计算字符串的哈希值以实现快速匹配。理论分析表明,该算法的空间复杂度为O(rm^2),优于基于子串识别的匹配算法BOM的空间复杂度O(mr|∑|log_2mr);该算法搜索匹配过程的平均时间复杂度为O(nlog|∑|)mr/m,与BOM算法相同(其中m为最短模式串的长度,r为模式串的个数,n为待匹配文本的长度,|∑|为字母表的大小)。在随机数据集和真实数据集上的实验表明,该算法的存储空间远远低于BOM算法,而匹配速度与BOM算法相当,非常适合在线实时匹配的应用环境。
- 何慧敏刘燕兵谭建龙郭莉
- 关键词:多模式串匹配算法
- 一种基于MPHF和Bloom Filter的URL查找算法
- 随着网络的不断发展,包含不健康和有害内容的网页数量也在不断增加,导致需要过滤的网页URL也越来越多,从而对网络防火墙的性能带来了巨大的挑战,因此设计高效的大规模URL查找算法是非常必要的。本文通过分析MPHF(最小完美散...
- 林磊刘燕兵谭建龙郭莉
- 关键词:布隆过滤器
- 文献传递
- 基于概率统计模型的快递地址自动分类方法被引量:5
- 2012年
- 快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取送点的对应概率分布,对快递地址所属的取送点做出判断。在某快递公司提供的快递地址分类数据上的实验结果表明,该方法的自动分类准确率可达99%以上,每个地址的分类用时为0.43 ms。
- 邵妍刘燕兵谭建龙郭莉
- 关键词:概率统计
- 面向骨干网NIDS的细粒度并行多模式匹配方法被引量:1
- 2013年
- 随着网络带宽的快速增长,互联网正面临着日益严重的安全威胁。网络入侵检测系统(NIDS)利用模式匹配等技术对网络报文进行分析和检测,是防范网络威胁、保护网络安全的一种有效手段。但模式匹配消耗巨大的计算量,现有的技术难以满足10Gbps以上骨干网络NIDS的需求。提出了基于Bloom filter的细粒度并行模式匹配技术PBPM(Parallel-Bloom-filter-based multi-Pattern Matching),PBPM利用多个相同的Bloom filter分别从输入文本的不同位置处并行匹配,每个周期可完成多个字符的匹配,显著提高了匹配速率。详细讨论了在FPGA上的实现方式,在Snort 2.9规则集上的测试结果表明,PBPM能够提供超过20Gbps的模式匹配需求。
- 邵宗有刘兴奎刘新春孙凝晖
- 关键词:多模式匹配字符串匹配BLOOMNIDS
- 正则表达式分组的1/(1-1/k)-近似算法被引量:12
- 2012年
- 对正则表达式集合进行分组是解决DFA状态膨胀问题的一种重要方法.已有的分组算法大都是启发式的或蛮力的,分组效果很差.分析了DFA状态膨胀的原因,总结了某些正则表达式间的冲突状况.证明了当冲突非负和冲突独立时,正则表达式集合的最优k分组问题可归结为最大k割问题,从而说明该问题是NP-Hard的.基于局部搜索的思想,提出了一种分组算法GRELS来解决分组问题,并证明对最大k割问题,该算法的近似比是1/(1-1/k).与已有的分组算法相比,当分组数目相同时,GRELS算法分组结果的状态总数最少,并且集合发生变化时所需的更新时间最短.
- 柳厅文孙永卜东波郭莉方滨兴
- 关键词:正则表达式深度包检测局部搜索
- 基于自动机理论的PDF文本内容抽取被引量:8
- 2012年
- 现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。
- 王晓娟谭建龙刘燕兵刘金刚
- 关键词:自动机
- FPGA实现的正则表达式匹配性能分析被引量:1
- 2012年
- 分析出影响FPGA实现的正则表达式匹配性能的关键因素是正则表达式匹配性能优化的前提.首先由L7-Filter各个规则的性能测试结果分析出低主频规则有别于其它高主频规则的三个特征.其后通过设计多个字符组串联而成的特殊正则表达式测试模型去验证这三个特征对基于FPGA的正则表达式自动机性能的影响程度.得出如下结论:基于FPGA的正则表达式自动机的主频随字符组宽度的增长而迅速下降,随字符组串联数目的增长而缓慢下降;星号(*)或问号(?)重复语法对字符组规则主频的影响大于加号(+)重复语法对字符组规则主频的影响.最后将基于字符组的结论推广至更普遍的大量字符"或(|)"操作的层面.
- 唐球姜磊谭建龙刘金刚
- 关键词:现场可编程门阵列正则表达式