<a name=”引言” class=”reference-link”>引言

当下，语义分析算法因其轻规则、低误漏报、更贴合业务场景等优势被广泛应用于各类型的安全防护产品中，并取得了较好的效果，但现阶段依旧存在一些方法能够有效突破传统语义分析防护，本文会介绍部分SQL注入场景下突破语义分析算法的黑魔法。

语义\词法分析概述

词法分析

现阶段，SQL注入的词法分析主流分为两类：

基于弱规则词法黑名单

基于词法Token变化

其中基于弱规则词法黑名单的算法被用于大家熟知的Libinjection，主要通过将用户的输入进行Token化，然后再去匹配一份维护好了的SQL注入黑名单规则库，从而有效发现SQL注入问题。

其中各种输入对应词法如下：

检测SQL注入的流程如下：

而基于Token变化的检测算法，规则比上述算法更弱，只需计算用户的输入是否横跨了多个Token，如果横跨了多个Token则判断为存在SQL注入。

语义分析

和词法分析相比，语义分析会做的更加细致，它不仅仅关注SQL的Token，更会去关注用户的输入对具体的SQL结构造成了怎样的改变，这样能够更大程度的解决词法分析仅仅基于Token造成的误报问题。

当用户输入会导致SQL整体语义发生变化，往往会被语义分析判定为SQL注入。

对于一些运行时安全防护产品而言，由于运行在应用中，可以直接获取到完整的SQL语句，语义分析的准确率往往较高，而对于传统流量型安全防护产品而言，由于只能获取到流量中的用户输入参数，无法知道真实运行的SQL语句是什么样的，就需要额外的工作，大体分为两类：

SQL片段分析：

需要基于 Context Free Grammer ，最大的挑战是时间复杂度和准确率。

构造完整的SQL语句：

主流安全产品会假设用户输入参数为数字型、字符型两种场景，将参数拼接到简化的SQL语句中构成完整的SQL语句，进而进行语义分析。但很多时候会出现关键字拼接参数（如IN、GROUP BY、ORDER BY等）的场景，这种情况下语义分析准确率就会下降，而如果尽可能的穷举了用户参数的拼接场景，则会造成性能的不可控。

绕过思路

预期外的SQL特性

原理

语义分析会面临的一个最大的难题就是：虽然大部分的数据库语法都比较相似，但不同数据库之间又都有自己独有的一些特性在里面，这样如果攻击者对某一款数据库足够了解，就可能通过一些特殊的SQL特性进行SQL注入，而语义分析之前又未能兼容该特性，从而导致语义分析引擎报错，失去检测能力。

巧用ODBC

ODBC是一个大部分SQL都支持的特性，官方介绍如下：

{identifier expr} is ODBC escape syntax and is accepted for ODBC compatibility. The value is expr. The { and } curly braces in the syntax should be written literally; they are not metasyntax as used elsewhere in syntax descriptions.

由于ODBC本身的自由性，可以构造出很多非常复杂的SQL语句，从而导致语义分析很难进行识别。

psql并不认识转义字符

几乎大部分主流语义分析引擎、主流数据库都将 \ 理解为转义字符，但PSQL并不这么理解，对 \ 理解上的差异使得绕过PSQL变得十分容易。

神奇的科学计数法

科学符号，特别是 e 符号，已被集成到包括 SQL 在内的许多编程语言中。目前还不清楚这是否是所有 SQL 实现的一部分，但它是 MySQL/MariaDB 实现的一部分。当e符号在无效的上下文中使用的时候，并不会导致SQL报错，而是会被SQL自行忽略，这就导致了SQL注入时的Payload可以通过大量无效科学符号来影响语义分析引擎对SQL语句的解析。

select last_name from students where student_id = ‘1’ union select concat 5.e(1.e(flag 10.2e)3.e,’*‘6.e) from test 1.e.flag—