当前被编码后的变种攻击载荷数量已达万亿级别,如何防护?
长亭科技发明了一种智能推测嵌套编码的方法,百倍提升检测效率,并获得发明专利。
先来一个随堂测试:
“1%27%20or%201%3D1” 这是什么代码?
有经验的安全人员很快会发现,
这是经过url编码之后的SQL注入攻击,也是一种“万能密码”。
“MSUyNyUyMG9yJTIwMSUzRDE=”这个呢?
“TVNVeU55VXlNRzl5SlRJd01TVXpSREU9”再看这个呢?
“VFZOVmVVNTVWWGxOUnpsNVNsUkpkMDFUVlhwU1JFVTk=” 还有这个呢?
其实它们都是同一个攻击载荷,即SQL注入万能密码”1’ or 1=1”,只是分别经过了1层url编码、1层base64编码、2层base64编码、3层base64编码。
经过多层编码之后,攻击特征完全看不出来了。
编码绕过是种非常普遍的绕过WAF攻击手段。
其做法是利用各种编程语言、中间件、框架的特性,将攻击载荷通过多次、多层的编码,产生一个与原始攻击载荷完全不同的变种载荷,隐藏攻击特征,从而绕过检测软件。
在现实网络中,
攻击编码方式有十数种,
嵌套编码层数可达十余层,
变种后,载荷的数量将呈指数级增长,
这个总数是万亿级别。
一层解码其实不是难题,毕竟编码方式是公开的,反向推导就可以。
多层编码呢?是不是也这么容易?
不如让最近大火的Chat-GPT来测试一下,
还是回答开头的测试题。
不愧是人工智能界的扛把子,Chat-GPT很轻松的就解出了经过一层编码的攻击载荷“1’or1=1”,而且思路清晰、有理有据。
我们加一点难度,同样还是原始载荷“1’or1=1”,再试试三层编码后的。
可以看到,尽管我们把解码方式和路径都告诉了Chat-GPT,尽管作答过程依然看起来十分规范,但显然答案错误。
经过多次、多层嵌套编码后的攻击载荷问题并不好解决。
那么,Web应用防火墙这类专业流量检测设备怎么做呢?
常见方式是,安全研究人员首先分析已知攻击检测用例,提取攻击特征载荷,使用特定规则语言描述攻击特征,再生效在WAF中。
这种方式的局限性很明显:
1、变种攻击载荷数量远超设备常规规则数量
传统安全检测设备支持的规则数目大概是万级别,必然无法完全枚举万亿级别的变种攻击载荷。在这种情况下,安全人员通常会优先编写置入近期热门变种特征规则,大量绕过就此诞生。
2、大量增加规则数量后,检测效率降低
当规则库增大后,需要大量标记是否匹配解码规则,以判断是否需要这个类型的解码,逐渐影响检测效率。
有没有更聪明的解法?
区别于普通解码方式,长亭雷池(SafeLine)下一代Web应用防火墙的专利解码技术使用了 “剪枝”策略。
这是一个被多次、多层编码后的Payload:
首先机器对该Payload进行第一波扫描,推测出了6种解码可能性:
根据这个结果调用对应解码器尝试解码,其中灰色4条路径解码失败,另外绿色2条路径解码成功:
接下来,攻击检测规则对两条解码成功的载荷进行检测,因未发现攻击特征,继续对这两个载荷进行解码探测、重复上述步骤,直至解码至Payload133检测到攻击特征、拦截该请求:
整体上来说, 长亭智能推测嵌套编码是一个重复“猜测-验证”的过程;通过自动化的探测流程不断摒弃错误的编码路径,直到还原到原始的攻击载荷。
得益于“剪枝”策略,雷池(SafeLine)不必存储大量攻击载荷被编码的规则,这大大提升了检测效率,同时突破规则枚举不全造成的攻击绕过局限性,提高检测准确率。
同时,为了不放过潜在的攻击行为,雷池(SafeLine)对http请求的内容执行无差别检测策略。
无差别检测
即不具体拆解Payload具体是在哪UrlPath下、哪个Query参数中、哪个Form表单中;
而是自适应地对所有请求参数进行智能的编码探测、解码,攻击检测,尽可能扫描到所有的攻击Payload。
这意味着,不管攻击载荷是什么样子,雷池(SafeLine)都能经过层层还原,识别出原始攻击载荷,对部分0day攻击也有很好的检测效果。
雷池(SafeLine)识别过的部分0day攻击列表
AI让人焦虑,落地才是真实。
发表评论
您还未登录,请先登录。
登录