php parser与lexical scanner分析-安全KER

前言

目的：学习语义分析工具的编写原理从而实现自己编写语义分析工具。

读完本文只需要记得phpparser基于zend’s lexical scanner，zend’s lexical scanner基于re2c。下一次我们会分析一下re2c看看究竟抽象化是怎么通过代码实现的。

简单的例子入手

从readme中的例子入手

抽象化

<?php
use PhpParser\Error;
use PhpParser\NodeDumper;
use PhpParser\ParserFactory;

$code = <<<'CODE'
<?php

function test($foo)
{
    var_dump($foo);
}
CODE;

$parser = (new ParserFactory)->create(ParserFactory::PREFER_PHP7);
try {
    $ast = $parser->parse($code);
} catch (Error $error) {
    echo "Parse error: {$error->getMessage()}\n";
    return;
}

$dumper = new NodeDumper;
echo $dumper->dump($ast) . "\n";

?>

首先引用了Error NodeDumper ParserFactory

code是\<? php function test($foo){ var_dump($foo);}?>

new一个parserfactory执行create

那么我们打开parserfactory文件查看create函数

函数原型是public function create(int $kind, Lexer $lexer = null, array $parserOptions = []) : Parser {

同时文件开头定义PHP7为1

也就是kind=1

进入函数内部，lexer=null所以new一个emulative

switch return new multiple参数是new php7和 php5

php7参数是lexer 和parseroptions

lexer=new emulative parseroptions=null

所以parser的值是multiple

然后下一句 ast = parser->parse(code)

转到parser，函数原型public function parse(string $code, ErrorHandler $errorHandler = null)：

public function parse(string $code, ErrorHandler $errorHandler = null) {
        if (null === $errorHandler) {
            $errorHandler = new ErrorHandler\Throwing;
        }

        list($firstStmts, $firstError) = $this->tryParse($this->parsers[0], $errorHandler, $code);
        if ($firstError === null) {
            return $firstStmts;
        }

        for ($i = 1, $c = count($this->parsers); $i < $c; ++$i) {
            list($stmts, $error) = $this->tryParse($this->parsers[$i], $errorHandler, $code);
            if ($error === null) {
                return $stmts;
            }
        }

        throw $firstError;
    }

调用tryparse函数，调用parserabstract的parse函数。

public function parse(string $code, ErrorHandler $errorHandler = null) {
        $this->errorHandler = $errorHandler ?: new ErrorHandler\Throwing;

    $this->lexer->startLexing($code, $this->errorHandler);
    $result = $this->doParse();

    // Clear out some of the interior state, so we don't hold onto unnecessary
    // memory between uses of the parser
    $this->startAttributeStack = [];
    $this->endAttributeStack = [];
    $this->semStack = [];
    $this->semValue = null;

    return $result;
}

调用lexer的startlexing

public function startLexing(string $code, ErrorHandler $errorHandler = null) {
        if (null === $errorHandler) {
            $errorHandler = new ErrorHandler\Throwing();
        }

    $this->code = $code; // keep the code around for __halt_compiler() handling
    $this->pos  = -1;
    $this->line =  1;
    $this->filePos = 0;

    // If inline HTML occurs without preceding code, treat it as if it had a leading newline.
    // This ensures proper composability, because having a newline is the "safe" assumption.
    $this->prevCloseTagHasNewline = true;

    $scream = ini_set('xdebug.scream', '0');

    $this->tokens = @token_get_all($code);
    $this->postprocessTokens($errorHandler);

    if (false !== $scream) {
        ini_set('xdebug.scream', $scream);
    }
}

执行token_get_all

使用 Zend 引擎的词汇扫描仪将给定字符串解析为 PHP 语言令牌

实现了将不同格式的代码转换成通用语言令牌。

随后执行postprocesstokens对token进行处理，记录每一部分的位置，并进行划分。

再执行doparse

对每个token都只记录开始和结束。

随后记录状态，和数据流分析一样，要记录每一句代码执行之前的状态和执行之后的状态，而这些状态存储在statestack中，也就是抽象堆中。

随后执行getnexttoken函数，记录代码所在起始和结束行，token起始和结束位置，所在文件起始和结束位置。

随后判断这个token在不在我们当前分析的代码块中，并将token插入到AST中的执行位置

返回结果

最后dump输出结果

array(
    0: Stmt_Function(
        byRef: false
        name: Identifier(
            name: test
        )
        params: array(
            0: Param(
                type: null
                byRef: false
                variadic: false
                var: Expr_Variable(
                    name: foo
                )
                default: null
            )
        )
        returnType: null
        stmts: array(
            0: Stmt_Expression(
                expr: Expr_FuncCall(
                    name: Name(
                        parts: array(
                            0: var_dump
                        )
                    )
                    args: array(
                        0: Arg(
                            value: Expr_Variable(
                                name: foo
                            )
                            byRef: false
                            unpack: false
                        )
                    )
                )
            )
        )
    )
)

stmt__function记录函数定义，identifier标记name是test，params记录函数参数。Expr_variable表示变量，name记录变量名，stmts是函数内部代码。stmt_expression记录表达式，expr_Funccall表示调用函数，name记录函数名，args记录参数

实现

use PhpParser\Node;
use PhpParser\Node\Stmt\Function_;
use PhpParser\NodeTraverser;
use PhpParser\NodeVisitorAbstract;

$traverser = new NodeTraverser();
$traverser->addVisitor(new class extends NodeVisitorAbstract {
    public function enterNode(Node $node) {
        if ($node instanceof Function_) {
            // Clean out the function body
            $node->stmts = [];
        }
    }
});

$ast = $traverser->traverse($ast);
echo $dumper->dump($ast) . "\n";

将抽象函数enternode定义，执行traverse函数

public function traverse(array $nodes) : array {
        $this->stopTraversal = false;

    foreach ($this->visitors as $visitor) {
        if (null !== $return = $visitor->beforeTraverse($nodes)) {
            $nodes = $return;
        }
    }

    $nodes = $this->traverseArray($nodes);

    foreach ($this->visitors as $visitor) {
        if (null !== $return = $visitor->afterTraverse($nodes)) {
            $nodes = $return;
        }
    }

    return $nodes;
}

执行$nodes = $this->traverseArray($nodes);

protected function traverseArray(array $nodes) : array {
        $doNodes = [];

    foreach ($nodes as $i => &$node) {
        if ($node instanceof Node) {
            $traverseChildren = true;
            $breakVisitorIndex = null;

            foreach ($this->visitors as $visitorIndex => $visitor) {
                $return = $visitor->enterNode($node);
                if (null !== $return) {
                    if ($return instanceof Node) {
                        $this->ensureReplacementReasonable($node, $return);
                        $node = $return;
                    } elseif (self::DONT_TRAVERSE_CHILDREN === $return) {
                        $traverseChildren = false;
                    } elseif (self::DONT_TRAVERSE_CURRENT_AND_CHILDREN === $return) {
                        $traverseChildren = false;
                        $breakVisitorIndex = $visitorIndex;
                        break;
                    } elseif (self::STOP_TRAVERSAL === $return) {
                        $this->stopTraversal = true;
                        break 2;
                    } else {
                        throw new \LogicException(
                            'enterNode() returned invalid value of type ' . gettype($return)
                        );
                    }
                }
            }

            if ($traverseChildren) {
                $node = $this->traverseNode($node);
                if ($this->stopTraversal) {
                    break;
                }
            }

            foreach ($this->visitors as $visitorIndex => $visitor) {
                $return = $visitor->leaveNode($node);

                if (null !== $return) {
                    if ($return instanceof Node) {
                        $this->ensureReplacementReasonable($node, $return);
                        $node = $return;
                    } elseif (\is_array($return)) {
                        $doNodes[] = [$i, $return];
                        break;
                    } elseif (self::REMOVE_NODE === $return) {
                        $doNodes[] = [$i, []];
                        break;
                    } elseif (self::STOP_TRAVERSAL === $return) {
                        $this->stopTraversal = true;
                        break 2;
                    } elseif (false === $return) {
                        throw new \LogicException(
                            'bool(false) return from leaveNode() no longer supported. ' .
                            'Return NodeTraverser::REMOVE_NODE instead'
                        );
                    } else {
                        throw new \LogicException(
                            'leaveNode() returned invalid value of type ' . gettype($return)
                        );
                    }
                }

                if ($breakVisitorIndex === $visitorIndex) {
                    break;
                }
            }
        } elseif (\is_array($node)) {
            throw new \LogicException('Invalid node structure: Contains nested arrays');
        }
    }

    if (!empty($doNodes)) {
        while (list($i, $replace) = array_pop($doNodes)) {
            array_splice($nodes, $i, 1, $replace);
        }
    }

    return $nodes;
}

实现进入子节点并记录

其中因为我们补充的enternode是$node->stmts = [];

所以最终结果是

array(
    0: Stmt_Function(
        byRef: false
        name: Identifier(
            name: test
        )
        params: array(
            0: Param(
                type: null
                byRef: false
                variadic: false
                var: Expr_Variable(
                    name: foo
                )
                default: null
            )
        )
        returnType: null
        stmts: array(
        )
    )
)

也就是仅仅记录函数本身不包括其中内容和操作。

所以结论就是phpparser的抽象化是由token_get_all实现的，生成AST是其主要部分，代码分析操作由接口实现。

Zend engine’s lexical scanner

我们看看Zend engine’s lexical scanner的源码，来学习一下词汇扫描仪是怎么抽象化代码的。

初始化

ZEND_API zend_result open_file_for_scanning(zend_file_handle *file_handle)
{
    char *buf;
    size_t size;
    zend_string *compiled_filename;

if (zend_stream_fixup(file_handle, &buf, &size) == FAILURE) {
    /* Still add it to open_files to make destroy_file_handle work */
    zend_llist_add_element(&CG(open_files), file_handle);
    file_handle->in_list = 1;
    return FAILURE;
}

ZEND_ASSERT(!EG(exception) && "stream_fixup() should have failed");
zend_llist_add_element(&CG(open_files), file_handle);
file_handle->in_list = 1;

/* Reset the scanner for scanning the new file */
SCNG(yy_in) = file_handle;
SCNG(yy_start) = NULL;

if (size != (size_t)-1) {
    if (CG(multibyte)) {
        SCNG(script_org) = (unsigned char*)buf;
        SCNG(script_org_size) = size;
        SCNG(script_filtered) = NULL;

        zend_multibyte_set_filter(NULL);

        if (SCNG(input_filter)) {
            if ((size_t)-1 == SCNG(input_filter)(&SCNG(script_filtered), &SCNG(script_filtered_size), SCNG(script_org), SCNG(script_org_size))) {
                zend_error_noreturn(E_COMPILE_ERROR, "Could not convert the script from the detected "
                        "encoding \"%s\" to a compatible encoding", zend_multibyte_get_encoding_name(LANG_SCNG(script_encoding)));
            }
            buf = (char*)SCNG(script_filtered);
            size = SCNG(script_filtered_size);
        }
    }
    SCNG(yy_start) = (unsigned char *)buf;
    yy_scan_buffer(buf, size);
} else {
    zend_error_noreturn(E_COMPILE_ERROR, "zend_stream_mmap() failed");
}

if (CG(skip_shebang)) {
    BEGIN(SHEBANG);
} else {
    BEGIN(INITIAL);
}

if (file_handle->opened_path) {
    compiled_filename = zend_string_copy(file_handle->opened_path);
} else {
    compiled_filename = zend_string_copy(file_handle->filename);
}

zend_set_compiled_filename(compiled_filename);
zend_string_release_ex(compiled_filename, 0);

RESET_DOC_COMMENT();
CG(zend_lineno) = 1;
CG(increment_lineno) = 0;
return SUCCESS;

}

首先初始化SCNG的内容然后调用BEGIN，BEGIN在最开始定义为#define BEGIN(state) YYSETCONDITION(STATE(state))

YYSETCONDITION的定义是#define YYSETCONDITION(s) SCNG(yy_state) = s

也就是设置state = s

随后执行

zend_set_compiled_filename(compiled_filename);

zend_set_compiled_filename的定义是

ZEND_API zend_string *zend_set_compiled_filename(zend_string *new_compiled_filename)
{
    CG(compiled_filename) = zend_string_copy(new_compiled_filename);
    return new_compiled_filename;
}

调用zend_string_copy最终返回文件名

再执行RESET_DOC_COMMENT();

#define RESET_DOC_COMMENT() do { \
    if (CG(doc_comment)) { \
        zend_string_release_ex(CG(doc_comment), 0); \
        CG(doc_comment) = NULL; \
    } \
} while (0)

zend_string_release_ex

static zend_always_inline void zend_string_release_ex(zend_string *s, bool persistent)
{
    if (!ZSTR_IS_INTERNED(s)) {
        if (GC_DELREF(s) == 0) {
            if (persistent) {
                ZEND_ASSERT(GC_FLAGS(s) & IS_STR_PERSISTENT);
                free(s);
            } else {
                ZEND_ASSERT(!(GC_FLAGS(s) & IS_STR_PERSISTENT));
                efree(s);
            }
        }
    }
}

persistent是0 所以执行efree

ZEND_API void ZEND_FASTCALL _efree(void *ptr ZEND_FILE_LINE_DC ZEND_FILE_LINE_ORIG_DC)
{
#if ZEND_MM_CUSTOM
    if (UNEXPECTED(AG(mm_heap)->use_custom_heap)) {
        _efree_custom(ptr ZEND_FILE_LINE_RELAY_CC ZEND_FILE_LINE_ORIG_RELAY_CC);
        return;
    }
#endif
    zend_mm_free_heap(AG(mm_heap), ptr ZEND_FILE_LINE_RELAY_CC ZEND_FILE_LINE_ORIG_RELAY_CC);
}

static zend_always_inline void zend_mm_free_heap(zend_mm_heap *heap, void *ptr ZEND_FILE_LINE_DC ZEND_FILE_LINE_ORIG_DC)
{
    size_t page_offset = ZEND_MM_ALIGNED_OFFSET(ptr, ZEND_MM_CHUNK_SIZE);

if (UNEXPECTED(page_offset == 0)) {
    if (ptr != NULL) {
        zend_mm_free_huge(heap, ptr ZEND_FILE_LINE_RELAY_CC ZEND_FILE_LINE_ORIG_RELAY_CC);
    }
} else {
    zend_mm_chunk *chunk = (zend_mm_chunk*)ZEND_MM_ALIGNED_BASE(ptr, ZEND_MM_CHUNK_SIZE);
    int page_num = (int)(page_offset / ZEND_MM_PAGE_SIZE);
    zend_mm_page_info info = chunk->map[page_num];

    ZEND_MM_CHECK(chunk->heap == heap, "zend_mm_heap corrupted");
    if (EXPECTED(info & ZEND_MM_IS_SRUN)) {
        zend_mm_free_small(heap, ptr, ZEND_MM_SRUN_BIN_NUM(info));
    } else /* if (info & ZEND_MM_IS_LRUN) */ {
        int pages_count = ZEND_MM_LRUN_PAGES(info);

        ZEND_MM_CHECK(ZEND_MM_ALIGNED_OFFSET(page_offset, ZEND_MM_PAGE_SIZE) == 0, "zend_mm_heap corrupted");
        zend_mm_free_large(heap, chunk, page_num, pages_count);
    }
}

}

处理堆栈中的数据，清空上一次分析的内存

ZEND_API zend_op_array *compile_file(zend_file_handle *file_handle, int type)
{
    zend_lex_state original_lex_state;
    zend_op_array *op_array = NULL;
    zend_save_lexical_state(&original_lex_state);

if (open_file_for_scanning(file_handle)==FAILURE) {
    if (!EG(exception)) {
        if (type==ZEND_REQUIRE) {
            zend_message_dispatcher(ZMSG_FAILED_REQUIRE_FOPEN, ZSTR_VAL(file_handle->filename));
        } else {
            zend_message_dispatcher(ZMSG_FAILED_INCLUDE_FOPEN, ZSTR_VAL(file_handle->filename));
        }
    }
} else {
    op_array = zend_compile(ZEND_USER_FUNCTION);
}

zend_restore_lexical_state(&original_lex_state);
return op_array;

}

主要执行语句是zend_compile(ZEND_USER_FUNCTION);

static zend_op_array *zend_compile(int type)
{
    zend_op_array *op_array = NULL;
    bool original_in_compilation = CG(in_compilation);

CG(in_compilation) = 1;
CG(ast) = NULL;
CG(ast_arena) = zend_arena_create(1024 * 32);

if (!zendparse()) {
    int last_lineno = CG(zend_lineno);
    zend_file_context original_file_context;
    zend_oparray_context original_oparray_context;
    zend_op_array *original_active_op_array = CG(active_op_array);

    op_array = emalloc(sizeof(zend_op_array));
    init_op_array(op_array, type, INITIAL_OP_ARRAY_SIZE);
    CG(active_op_array) = op_array;

    /* Use heap to not waste arena memory */
    op_array->fn_flags |= ZEND_ACC_HEAP_RT_CACHE;

    if (zend_ast_process) {
        zend_ast_process(CG(ast));
    }

    zend_file_context_begin(&original_file_context);
    zend_oparray_context_begin(&original_oparray_context);
    zend_compile_top_stmt(CG(ast));
    CG(zend_lineno) = last_lineno;
    zend_emit_final_return(type == ZEND_USER_FUNCTION);
    op_array->line_start = 1;
    op_array->line_end = last_lineno;
    zend_init_static_variables_map_ptr(op_array);
    pass_two(op_array);
    zend_oparray_context_end(&original_oparray_context);
    zend_file_context_end(&original_file_context);

    CG(active_op_array) = original_active_op_array;
}

zend_ast_destroy(CG(ast));
zend_arena_destroy(CG(ast_arena));

CG(in_compilation) = original_in_compilation;

return op_array;

}

其中init_op_array(op_array, type, INITIAL_OP_ARRAY_SIZE);原型是

void init_op_array(zend_op_array *op_array, zend_uchar type, int initial_ops_size)
{
    op_array->type = type;
    op_array->arg_flags[0] = 0;
    op_array->arg_flags[1] = 0;
    op_array->arg_flags[2] = 0;

op_array->refcount = (uint32_t *) emalloc(sizeof(uint32_t));
*op_array->refcount = 1;
op_array->last = 0;
op_array->opcodes = emalloc(initial_ops_size * sizeof(zend_op));

op_array->last_var = 0;
op_array->vars = NULL;

op_array->T = 0;

op_array->function_name = NULL;
op_array->filename = zend_string_copy(zend_get_compiled_filename());
op_array->doc_comment = NULL;
op_array->attributes = NULL;

op_array->arg_info = NULL;
op_array->num_args = 0;
op_array->required_num_args = 0;

op_array->scope = NULL;
op_array->prototype = NULL;

op_array->live_range = NULL;
op_array->try_catch_array = NULL;
op_array->last_live_range = 0;

op_array->static_variables = NULL;
ZEND_MAP_PTR_INIT(op_array->static_variables_ptr, NULL);
op_array->last_try_catch = 0;

op_array->fn_flags = 0;

op_array->last_literal = 0;
op_array->literals = NULL;

op_array->num_dynamic_func_defs = 0;
op_array->dynamic_func_defs = NULL;

ZEND_MAP_PTR_INIT(op_array->run_time_cache, NULL);
op_array->cache_size = zend_op_array_extension_handles * sizeof(void*);

memset(op_array->reserved, 0, ZEND_MAX_RESERVED_RESOURCES * sizeof(void*));

if (zend_extension_flags & ZEND_EXTENSIONS_HAVE_OP_ARRAY_CTOR) {
    zend_llist_apply_with_argument(&zend_extensions, (llist_apply_with_arg_func_t) zend_extension_op_array_ctor_handler, op_array);
}

}

也就是初始化所有的标签，然后执行memset

zend_file_context_begin

void zend_file_context_begin(zend_file_context *prev_context) /* {{{ */
{
    *prev_context = CG(file_context);
    FC(imports) = NULL;
    FC(imports_function) = NULL;
    FC(imports_const) = NULL;
    FC(current_namespace) = NULL;
    FC(in_namespace) = 0;
    FC(has_bracketed_namespaces) = 0;
    FC(declarables).ticks = 0;
    zend_hash_init(&FC(seen_symbols), 8, NULL, NULL, 0);
}

zend_oparray_context_begin

void zend_oparray_context_begin(zend_oparray_context *prev_context) /* {{{ */
{
    *prev_context = CG(context);
    CG(context).opcodes_size = INITIAL_OP_ARRAY_SIZE;
    CG(context).vars_size = 0;
    CG(context).literals_size = 0;
    CG(context).fast_call_var = -1;
    CG(context).try_catch_offset = -1;
    CG(context).current_brk_cont = -1;
    CG(context).last_brk_cont = 0;
    CG(context).brk_cont_array = NULL;
    CG(context).labels = NULL;
}
/* }}} */

抽象化

抽象化部分在zend_ini_scanner，zned_language_scanner，zend_operators等文件中

如zend_operators的_is_numeric_string_ex对数字类型进行分析

ZEND_API zend_uchar ZEND_FASTCALL _is_numeric_string_ex(const char *str, size_t length, zend_long *lval,
    double *dval, bool allow_errors, int *oflow_info, bool *trailing_data) /* {{{ */
{
    const char *ptr;
    int digits = 0, dp_or_e = 0;
    double local_dval = 0.0;
    zend_uchar type;
    zend_ulong tmp_lval = 0;
    int neg = 0;

if (!length) {
    return 0;
}

if (oflow_info != NULL) {
    *oflow_info = 0;
}
if (trailing_data != NULL) {
    *trailing_data = false;
}

/* Skip any whitespace

 * This is much faster than the isspace() function */
   while (*str == ' ' || *str == '\t' || *str == '\n' || *str == '\r' || *str == '\v' || *str == '\f') {
   str++;
   length--;
   }
   ptr = str;

if (*ptr == '-') {
    neg = 1;
    ptr++;
} else if (*ptr == '+') {
    ptr++;
}

if (ZEND_IS_DIGIT(*ptr)) {
    /* Skip any leading 0s */
    while (*ptr == '0') {
        ptr++;
    }

    /* Count the number of digits. If a decimal point/exponent is found,

  * it's a double. Otherwise, if there's a dval or no need to check for
    * a full match, stop when there are too many digits for a long */
      for (type = IS_LONG; !(digits >= MAX_LENGTH_OF_LONG && (dval || allow_errors)); digits++, ptr++) {

check_digits:
            if (ZEND_IS_DIGIT(*ptr)) {
                tmp_lval = tmp_lval * 10 + (*ptr) - '0';
                continue;
            } else if (*ptr == '.' && dp_or_e < 1) {
                goto process_double;
            } else if ((*ptr == 'e' || *ptr == 'E') && dp_or_e < 2) {
                const char *e = ptr + 1;

            if (*e == '-' || *e == '+') {
                ptr = e++;
            }
            if (ZEND_IS_DIGIT(*e)) {
                goto process_double;
            }
        }

        break;
    }

    if (digits >= MAX_LENGTH_OF_LONG) {
        if (oflow_info != NULL) {
            *oflow_info = *str == '-' ? -1 : 1;
        }
        dp_or_e = -1;
        goto process_double;
    }
} else if (*ptr == '.' && ZEND_IS_DIGIT(ptr[1])) {

process_double:
        type = IS_DOUBLE;

    /* If there's a dval, do the conversion; else continue checking

  * the digits if we need to check for a full match */
    if (dval) {
        local_dval = zend_strtod(str, &ptr);
    } else if (!allow_errors && dp_or_e != -1) {
        dp_or_e = (*ptr++ == '.') ? 1 : 2;
        goto check_digits;
    }
    } else {
    return 0;
    }

if (ptr != str + length) {
    const char *endptr = ptr;
    while (*endptr == ' ' || *endptr == '\t' || *endptr == '\n' || *endptr == '\r' || *endptr == '\v' || *endptr == '\f') {
        endptr++;
        length--;
    }
    if (ptr != str + length) {
        if (!allow_errors) {
            return 0;
        }
        if (trailing_data != NULL) {
            *trailing_data = true;
        }
    }
}

if (type == IS_LONG) {
    if (digits == MAX_LENGTH_OF_LONG - 1) {
        int cmp = strcmp(&ptr[-digits], long_min_digits);

        if (!(cmp < 0 || (cmp == 0 && *str == '-'))) {
            if (dval) {
                *dval = zend_strtod(str, NULL);
            }
            if (oflow_info != NULL) {
                *oflow_info = *str == '-' ? -1 : 1;
            }

            return IS_DOUBLE;
        }
    }

    if (lval) {
        if (neg) {
            tmp_lval = -tmp_lval;
        }
        *lval = (zend_long) tmp_lval;
    }

    return IS_LONG;
} else {
    if (dval) {
        *dval = local_dval;
    }

    return IS_DOUBLE;
}

}

首先对空格之类跳过，（原文件行数，下同）3177-3182是对+-运算符的提取和标记。3184-3212是获取数字，while跳过开头的0，对于数字使用long的范围去匹配避免麻烦。出现.则跳转到double处理。

zend_compile中的reserved_class_name是对类名进行分析，选取特定长度进行比对获取相对应的类名

static const struct reserved_class_name reserved_class_names[] = {
    {ZEND_STRL("bool")},
    {ZEND_STRL("false")},
    {ZEND_STRL("float")},
    {ZEND_STRL("int")},
    {ZEND_STRL("null")},
    {ZEND_STRL("parent")},
    {ZEND_STRL("self")},
    {ZEND_STRL("static")},
    {ZEND_STRL("string")},
    {ZEND_STRL("true")},
    {ZEND_STRL("void")},
    {ZEND_STRL("never")},
    {ZEND_STRL("iterable")},
    {ZEND_STRL("object")},
    {ZEND_STRL("mixed")},
    {NULL, 0}
};

static bool zend_is_reserved_class_name(const zend_string *name) /* {{{ */
{
    const struct reserved_class_name *reserved = reserved_class_names;

const char *uqname = ZSTR_VAL(name);
size_t uqname_len = ZSTR_LEN(name);
zend_get_unqualified_name(name, &uqname, &uqname_len);

for (; reserved->name; ++reserved) {
    if (uqname_len == reserved->len
        && zend_binary_strcasecmp(uqname, uqname_len, reserved->name, reserved->len) == 0
    ) {
        return 1;
    }
}

return 0;

}

zend_scan_escape_string首先判断这一行代码长度，如果当前行是空行则zend_lineno加一。一直到这一行的末尾，执行skip_escape_conversion。过程中如果遇到特殊字符$则退出，如果是标志x，u等数据类型的符号，则改变堆栈存储方式，如果是空格之类的符号就跳过。

分析完当前行后，需要分析下一有意义的行。这就是next_newline的作用。检测到回车如果存在下一行且下一行为换行，那么跳过两行，否则跳过一行。

static zend_result zend_scan_escape_string(zval *zendlval, char *str, int len, char quote_type)
{
    char *s, *t;
    char *end;

if (len <= 1) {
    if (len < 1) {
        ZVAL_EMPTY_STRING(zendlval);
    } else {
        zend_uchar c = (zend_uchar)*str;
        if (c == '\n' || c == '\r') {
            CG(zend_lineno)++;
        }
        ZVAL_INTERNED_STR(zendlval, ZSTR_CHAR(c));
    }
    goto skip_escape_conversion;
}

ZVAL_STRINGL(zendlval, str, len);

/* convert escape sequences */
s = Z_STRVAL_P(zendlval);
end = s+Z_STRLEN_P(zendlval);
while (1) {
    if (UNEXPECTED(*s=='\\')) {
        break;
    }
    if (*s == '\n' || (*s == '\r' && (*(s+1) != '\n'))) {
        CG(zend_lineno)++;
    }
    s++;
    if (s == end) {
        goto skip_escape_conversion;
    }
}

t = s;
while (s<end) {
    if (*s=='\\') {
        s++;
        if (s >= end) {
            *t++ = '\\';
            break;
        }

        switch(*s) {
            case 'n':
                *t++ = '\n';
                break;
            case 'r':
                *t++ = '\r';
                break;
            case 't':
                *t++ = '\t';
                break;
            case 'f':
                *t++ = '\f';
                break;
            case 'v':
                *t++ = '\v';
                break;
            case 'e':

#ifdef ZEND_WIN32
                    *t++ = VK_ESCAPE;
#else
                    *t++ = '\e';
#endif
                    break;
                case '"':
                case '`':
                    if (*s != quote_type) {
                        *t++ = '\\';
                        *t++ = *s;
                        break;
                    }
                    ZEND_FALLTHROUGH;
                case '\\':
                case '$':
                    *t++ = *s;
                    break;
                case 'x':
                case 'X':
                    if (ZEND_IS_HEX(*(s+1))) {
                        char hex_buf[3] = { 0, 0, 0 };

                    hex_buf[0] = *(++s);
                    if (ZEND_IS_HEX(*(s+1))) {
                        hex_buf[1] = *(++s);
                    }
                    *t++ = (char) ZEND_STRTOL(hex_buf, NULL, 16);
                } else {
                    *t++ = '\\';
                    *t++ = *s;
                }
                break;
            /* UTF-8 codepoint escape, format: /\\u\{\x+\}/ */
            case 'u':
                {
                    /* cache where we started so we can parse after validating */
                    char *start = s + 1;
                    size_t len = 0;
                    bool valid = 1;
                    unsigned long codepoint;

                    if (*start != '{') {
                        /* we silently let this pass to avoid breaking code

   * with JSON in string literals (e.g. "\"\u202e\""
                          */
                         *t++ = '\\';
                         *t++ = 'u';
                         break;
                     } else {
                         /* on the other hand, invalid \u{blah} errors */
                         s++;
                         len++;
                         s++;
                         while (*s != '}') {
                             if (!ZEND_IS_HEX(*s)) {
                                 valid = 0;
                                 break;
                             } else {
                                 len++;
                             }
                             s++;
                         }
                         if (*s == '}') {
                             valid = 1;
                             len++;
                         }
                     }

                     /* \u{} is invalid */
                     if (len <= 2) {
                         valid = 0;
                     }

                     if (!valid) {
                         zend_throw_exception(zend_ce_parse_error,
                             "Invalid UTF-8 codepoint escape sequence", 0);
                         zval_ptr_dtor(zendlval);
                         ZVAL_UNDEF(zendlval);
                         return FAILURE;
                     }

                     errno = 0;
                     codepoint = strtoul(start + 1, NULL, 16);

                     /* per RFC 3629, UTF-8 can only represent 21 bits */
                     if (codepoint > 0x10FFFF || errno) {
                         zend_throw_exception(zend_ce_parse_error,
                             "Invalid UTF-8 codepoint escape sequence: Codepoint too large", 0);
                         zval_ptr_dtor(zendlval);
                         ZVAL_UNDEF(zendlval);
                         return FAILURE;
                     }

                     /* based on https://en.wikipedia.org/wiki/UTF-8#Sample_code */
                     if (codepoint < 0x80) {
                         *t++ = codepoint;
                     } else if (codepoint <= 0x7FF) {
                         *t++ = (codepoint >> 6) + 0xC0;
                         *t++ = (codepoint & 0x3F) + 0x80;
                     } else if (codepoint <= 0xFFFF) {
                         *t++ = (codepoint >> 12) + 0xE0;
                         *t++ = ((codepoint >> 6) & 0x3F) + 0x80;
                         *t++ = (codepoint & 0x3F) + 0x80;
                     } else if (codepoint <= 0x10FFFF) {
                         *t++ = (codepoint >> 18) + 0xF0;
                         *t++ = ((codepoint >> 12) & 0x3F) + 0x80;
                         *t++ = ((codepoint >> 6) & 0x3F) + 0x80;
                         *t++ = (codepoint & 0x3F) + 0x80;
                     }
                 }
                 break;
             default:
                 /* check for an octal */
                 if (ZEND_IS_OCT(*s)) {
                     char octal_buf[4] = { 0, 0, 0, 0 };

                     octal_buf[0] = *s;
                     if (ZEND_IS_OCT(*(s+1))) {
                         octal_buf[1] = *(++s);
                         if (ZEND_IS_OCT(*(s+1))) {
                             octal_buf[2] = *(++s);
                         }
                     }
                     if (octal_buf[2] && (octal_buf[0] > '3') && !SCNG(heredoc_scan_ahead)) {
                         /* 3 octit values must not overflow 0xFF (\377) */
                         zend_error(E_COMPILE_WARNING, "Octal escape sequence overflow \\%s is greater than \\377", octal_buf);
                     }

                     *t++ = (char) ZEND_STRTOL(octal_buf, NULL, 8);
                 } else {
                     *t++ = '\\';
                     *t++ = *s;
                 }
                 break;
         }
     } else {
         *t++ = *s;
     }

     if (*s == '\n' || (*s == '\r' && (*(s+1) != '\n'))) {
         CG(zend_lineno)++;
     }
     s++;
     }
     *t = 0;
     Z_STRLEN_P(zendlval) = t - Z_STRVAL_P(zendlval);

skip_escape_conversion:
    if (SCNG(output_filter)) {
        size_t sz = 0;
        unsigned char *str;
        // TODO: avoid realocation ???
        s = Z_STRVAL_P(zendlval);
        SCNG(output_filter)(&str, &sz, (unsigned char *)s, (size_t)Z_STRLEN_P(zendlval));
        zval_ptr_dtor(zendlval);
        ZVAL_STRINGL(zendlval, (char *) str, sz);
        efree(str);
    }
    return SUCCESS;
}

lex_scan首先对LNUM之类的数据使用正则定义其结构。再分别对exit之类的关键词定义其分析方法。

由于这一段的代码过于长，所以仅作出部分粘贴。

lex_scan是根据re2c得到语法分析

其定义了

LNUM    [0-9]+(_[0-9]+)*
DNUM    ({LNUM}?"."{LNUM})|({LNUM}"."{LNUM}?)
EXPONENT_DNUM    (({LNUM}|{DNUM})[eE][+-]?{LNUM})
HNUM    "0x"[0-9a-fA-F]+(_[0-9a-fA-F]+)*
BNUM    "0b"[01]+(_[01]+)*
ONUM    "0o"[0-7]+(_[0-7]+)*
LABEL    [a-zA-Z_\x80-\xff][a-zA-Z0-9_\x80-\xff]*
WHITESPACE [ \n\r\t]+
TABS_AND_SPACES [ \t]*
TOKENS [;:,.|^&+-/*=%!~$<>?@]
ANY_CHAR [^]
NEWLINE ("\r"|"\n"|"\r\n")

作为基础结构单元的正则表达式。

<ST_IN_SCRIPTING>"exit" {
    RETURN_TOKEN_WITH_IDENT(T_EXIT);
}

<ST_IN_SCRIPTING>"die" {
    RETURN_TOKEN_WITH_IDENT(T_EXIT);
}

<ST_IN_SCRIPTING>"fn" {
    RETURN_TOKEN_WITH_IDENT(T_FN);
}

<ST_IN_SCRIPTING>"function" {
    RETURN_TOKEN_WITH_IDENT(T_FUNCTION);
}

<ST_IN_SCRIPTING>"const" {
    RETURN_TOKEN_WITH_IDENT(T_CONST);
}

<ST_IN_SCRIPTING>"return" {
    RETURN_TOKEN_WITH_IDENT(T_RETURN);
}

<ST_IN_SCRIPTING>"#[" {
    enter_nesting('[');
    RETURN_TOKEN(T_ATTRIBUTE);
}

<ST_IN_SCRIPTING>"yield"{WHITESPACE}"from"[^a-zA-Z0-9_\x80-\xff] {
    yyless(yyleng - 1);
    HANDLE_NEWLINES(yytext, yyleng);
    RETURN_TOKEN_WITH_IDENT(T_YIELD_FROM);
}

对exit，die，fn做出分别定义，执行RETURN_TOKEN_WITH_IDENT

#define RETURN_TOKEN_WITH_IDENT(_token) do { \
        token = _token; \
        goto emit_token_with_ident; \
    } while (0)

emit_token_with_ident

emit_token_with_ident:
    if (PARSER_MODE()) {
        elem->ident = SCNG(yy_text);
    }
    if (SCNG(on_event)) {
        SCNG(on_event)(ON_TOKEN, token, start_line, yytext, yyleng, SCNG(on_event_context));
    }
    return token;

这一部分就是将代码抽象化后存储。

上面这一部分是对基本代码结构即一个表达式的组成元素，变量及其类型，命令式函数及其组成部分和类型进行分析。

下面我们对特殊语法结构进行分析

zend对特殊结构使用BNF进行分析，代码在zend_ini_parser中。

首先是对基本组成单元进行划分

%expect 0
%define api.prefix {ini_}
%define api.pure full
%define api.value.type {zval}
%define parse.error verbose

%token END 0 "end of file"
%token TC_SECTION
%token TC_RAW
%token TC_CONSTANT
%token TC_NUMBER
%token TC_STRING
%token TC_WHITESPACE
%token TC_LABEL
%token TC_OFFSET
%token TC_DOLLAR_CURLY
%token TC_VARNAME
%token TC_QUOTED_STRING
%token BOOL_TRUE
%token BOOL_FALSE
%token NULL_NULL
%token END_OF_LINE
%token '=' ':' ',' '.' '"' '\'' '^' '+' '-' '/' '*' '%' '$' '~' '<' '>' '?' '@' '{' '}'
%left '|' '&' '^'
%precedence '~' '!'

%destructor { zval_ini_dtor(&$$); } TC_RAW TC_CONSTANT TC_NUMBER TC_STRING TC_WHITESPACE TC_LABEL TC_OFFSET TC_VARNAME BOOL_TRUE BOOL_FALSE NULL_NULL cfg_var_ref constant_literal constant_string encapsed_list expr option_offset section_string_or_value string_or_value var_string_list var_string_list_section

%%

随后对语句进行抽象描述并一步一步划分成更小的单元。

statement_list:
        statement_list statement
    |    %empty
;

statement:
        TC_SECTION section_string_or_value ']' {
#if DEBUG_CFG_PARSER
            printf("SECTION: [%s]\n", Z_STRVAL($2));
#endif
            ZEND_INI_PARSER_CB(&$2, NULL, NULL, ZEND_INI_PARSER_SECTION, ZEND_INI_PARSER_ARG);
            zend_string_release(Z_STR($2));
        }
    |    TC_LABEL '=' string_or_value {
#if DEBUG_CFG_PARSER
            printf("NORMAL: '%s' = '%s'\n", Z_STRVAL($1), Z_STRVAL($3));
#endif
            ZEND_INI_PARSER_CB(&$1, &$3, NULL, ZEND_INI_PARSER_ENTRY, ZEND_INI_PARSER_ARG);
            zend_string_release(Z_STR($1));
            zval_ini_dtor(&$3);
        }
    |    TC_OFFSET option_offset ']' '=' string_or_value {
#if DEBUG_CFG_PARSER
            printf("OFFSET: '%s'[%s] = '%s'\n", Z_STRVAL($1), Z_STRVAL($2), Z_STRVAL($5));
#endif
            ZEND_INI_PARSER_CB(&$1, &$5, &$2, ZEND_INI_PARSER_POP_ENTRY, ZEND_INI_PARSER_ARG);
            zend_string_release(Z_STR($1));
            zval_ini_dtor(&$2);
            zval_ini_dtor(&$5);
        }
    |    TC_LABEL    { ZEND_INI_PARSER_CB(&$1, NULL, NULL, ZEND_INI_PARSER_ENTRY, ZEND_INI_PARSER_ARG); zend_string_release(Z_STR($1)); }
    |    END_OF_LINE
;

我们以switchcase为例

在zend_language_parser中，定义了switchcase的结构，如下图

switch_case_list:
  669:         '{' case_list '}'                    { $$ = $2; }
  670:     |    '{' ';' case_list '}'                { $$ = $3; }
  671:     |    ':' case_list T_ENDSWITCH ';'        { $$ = $2; }
  672:     |    ':' ';' case_list T_ENDSWITCH ';'    { $$ = $3; }
  673  ;

switchcase可能存在单个case或者多个case。1是对单case的正则。2是对多个的正则。3是单case的结束判断，4是多case的结束判断。

其中T_ENDSWITCH在zend_language_parser定义，是关键词endswitch

case_list定义如下

case_list:
  676:         %empty { $$ = zend_ast_create_list(0, ZEND_AST_SWITCH_LIST); }
  677      |    case_list T_CASE expr case_separator inner_statement_list
  678:             { $$ = zend_ast_list_add($1, zend_ast_create(ZEND_AST_SWITCH_CASE, $3, $5)); }
  679      |    case_list T_DEFAULT case_separator inner_statement_list
  680:             { $$ = zend_ast_list_add($1, zend_ast_create(ZEND_AST_SWITCH_CASE, NULL, $4)); }
  681  ;

根据结构empty case_list T_CASE expr case_separator inner_statement_list case_list T_DEFAULT case_separator inner_statement_list分别进行存储。

其中expr case_separator inner_statement_list分别在后面有定义，其中case_separator是对：；进行匹配。其他也是类似。分析就到此结束，lexical scanner的抽象化方式是使用了re2c的正则匹配

最后

水平有限，欢迎指教

作者：DR@03@星盟

php parser与lexical scanner分析

译文声明

前言

简单的例子入手

抽象化

实现

Zend engine’s lexical scanner

初始化

抽象化

最后

发表评论

TA的文章

硬件安全系列第四篇 Background on VLSI Testing

硬件安全系列第三篇逻辑电路基础知识介绍（三）

硬件安全系列第二篇逻辑电路基础知识介绍（二）

硬件安全系列第一篇逻辑电路基础知识介绍（一）

程序分析理论最后一篇

相关文章

程序分析理论最后一篇

程序分析理论第五部分对控制流分析的基于类型和响应的系统模型

程序分析理论第四部分抽象解释伽罗瓦关系

程序分析理论第三部分上下文敏感的引入数据的控制流分析

程序分析理论第三部分控制流分析以语法为导向和基于约束

re2c浅探

程序分析理论第三部分控制流分析理论证明

热门推荐