分类目录归档：PHP

PHP源码，PHP扩展，PHP程序

PHP的词法解析器：re2c

re2c是一个扫描器制作工具，可以创建非常快速灵活的扫描器。它可以产生高效代码，基于C语言，可以支持C/C++代码。与其它类似的扫描器不同，它偏重于为正则表达式产生高效代码（和他的名字一样）。因此，这比传统的词法分析器有更广泛的应用范围。你可以在sourceforge.net获取源码。

PHP在最开始的词法解析器是使用的是flex，后来PHP的改为使用re2c。在源码目录下的Zend/zend_language_scanner.l 文件是re2c的规则文件，如果需要修改该规则文件需要安装re2c才能重新编译。

re2c调用方式：

re2c [-bdefFghisuvVw1] [-o output] [-c [-t header]] file

我们通过一个简单的例子来看下re2c。如下是一个简单的扫描器，它的作用是判断所给的字符串是数字/小写字母/大小字母。当然，这里没有做一些输入错误判断等异常操作处理。示例如下：

#include <stdio.h>

char *scan(char *p){
#define YYCTYPE char
#define YYCURSOR p
#define YYLIMIT p
#define YYMARKER q
#define YYFILL(n)
    /*!re2c
      [0-9]+ {return "number";}
      [a-z]+ {return "lower";}
      [A-Z]+ {return "upper";}
      [^] {return "unkown";}
     */
}

int main(int argc, char* argv[])
{
    printf("%s\n", scan(argv[1]));

    return 0;
}

如果你是在ubuntu环境下，可以执行下面的命令生成可执行文件。

re2c -o a.c a.l
gcc a.c -o a
chmod +x a
./a 1000

此时程序会输出number。

我们解释一下我们用到的几个re2c约定的宏。

YYCTYPE 用于保存输入符号的类型，通常为char型和unsigned char型
YYCURSOR 指向当前输入标记， -当开始时，它指向当前标记的第一个字符，当结束时，它指向下一个标记的第一个字符
YYFILL(n) 当生成的代码需要重新加载缓存的标记时，则会调用YYFILL(n)。
YYLIMIT 缓存的最后一个字符，生成的代码会反复比较YYCURSOR和YYLIMIT，以确定是否需要重新填充缓冲区。

参照如上几个标识的说明，可以较清楚的理解生成的a.c文件，当然，re2c不会仅仅只有上面代码所显示的标记，这只是一个简单示例，更多的标识说明和帮助信息请移步 re2c帮助文档：http://re2c.org/manual.html。

更多编译器相关算法: Compiler Algorithms

以数组形式访问对象的成员变量

在Yii框架中我们可以直接以数组的方式访问对象的成员变量，查看其源码得这些类都实现了ArrayAccess接口。如果你想让一个类的实例可以以数组的方式访问，实现ArrayAccess接口就可以了。如下示例：

class Foo implements ArrayAccess {

    private $_container = array();

    public function __construct() {
    }

    public function offsetSet($offset, $value) {
        $this->_container[$offset] = $value;
    }

    public function offsetExists($offset) {
        return isset($this->_container[$offset]);
    }

    public function offsetUnset($offset) {
        unset($this->_container[$offset]);
    }

    public function offsetGet($offset) {
        return isset($this->_container[$offset]) ? $this->_container[$offset] : NULL;
    }

}

$foo = new Foo;

$foo['test'] = 100;
echo $foo["test"];

这是官网上的一个例子，修改了一些代码，非常简单，它实现了一个类，这个类实现了ArrayAccess接口。从而我们可以以数组的方式访问或设置值。

什么原因导致可以以这样的方式访问呢？难道仅仅是因为那个接口吗？归根结底应该是类中的我们约定好的方法，而这些方法中只是接口的形式表现出来了。如果我们没有实现这个接口，而仅仅某个类拥有了这些方法呢？当程序执行时，程序会输出： Fatal error: Cannot use object of type Foo as array…

这表示实现这个接口是必须的，如果实现这个接口，那么就一定需要实现这个接口定义的所有方法。比如我们要以数组的方式读取一个成员变量，那在PHP内核中是如何实现的呢？通过表象看本质，这里是以数组的方式读取，那么其实现的位置应该还是在方括号符的实现位置。以VLD查看其中间代码，我们可以得知数组读取变量的中间代码为：ZEND_FETCH_DIM_R 在此中间代码的执行过程中最终都会调用zend_fetch_dimension_address_read函数来读取值。在这个函数中，它会依据不同容器类型做不同的处理，这些类型包括：数组，字符串、NULL、对象等。虽然我们是以数组的方式调用对象的属性，但在放对象属性的窗口还是对象。因此，此处程序走的分支是对象，在此分支中，对于对象，它会调用对象的read_dimension方法，默认情况下，Zend引擎的read_dimension方法默认实现是 zend_std_read_dimension函数（Zend/zend_object_handlers.c）。我们看zend_std_read_dimension函数的实现，如下：

zval *zend_std_read_dimension(zval *object, zval *offset, int type TSRMLS_DC) /* {{{ */
{
    zend_class_entry *ce = Z_OBJCE_P(object);
    zval *retval;

    /* 判断是否为ArrayAccess的子类 */
    if (instanceof_function_ex(ce, zend_ce_arrayaccess, 1 TSRMLS_CC)) {
        if(offset == NULL) {
            /* [] construct */
            ALLOC_INIT_ZVAL(offset);
        } else {
            SEPARATE_ARG_IF_REF(offset);
        }
        zend_call_method_with_1_params(&object, ce, NULL, "offsetget", &retval, offset);

        zval_ptr_dtor(&offset);

        if (!retval) {
            if (!EG(exception)) {
                zend_error(E_ERROR, "Undefined offset for object of type %s used as array", ce->name);
            }
            return 0;
        }

        /* Undo PZVAL_LOCK() */
        Z_DELREF_P(retval);

        return retval;
    } else {
        zend_error(E_ERROR, "Cannot use object of type %s as array", ce->name);
        return 0;
    }
}

从上面的代码我们可以看出：程序会先判断所给对象的类是否为ArrayAccess的子类，如果不是，则会显示错误，这在前面已经猜测，在此证实了。如果是其子类，则调用offsetget方法获取值。

虽然我们在使用SPL时会比较简单，但是如果要开发一个SPL有时可能就没这么简单了，特别是那些有语言特性的SPL功能（如ArrayAccess），则在实现时可能就需要调用相关语言实现的代码了，从上面看SPL与语言结构产生了较为严重的耦合，如果这个SPL要去掉，则需要修改的地方不只一处，是否有其它方案？ SPL现在本来就是以扩展的形式存在于PHP中，以扩展的方式加载，却不能以扩展的方式卸载。优雅乎？

PHP的类自动加载机制

在PHP5之前，各个PHP框架如果要实现类的自动加载，一般都是按照某种约定自己实现一个遍历目录，自动加载所有符合约定规则的文件的类或函数。当然，PHP5之前对面向对象的支持并不是太好，类的使用也没有现在频繁。在PHP5后，当加载PHP类时，如果类所在文件没有被包含进来，或者类名出错，Zend引擎会自动调用__autoload 函数。此函数需要用户自己实现__autoload函数。在PHP5.1.2版本后，可以使用spl_autoload_register函数自定义自动加载处理函数。当没有调用此函数，默认情况下会使用SPL自定义的spl_autoload函数。看下面两个例子：

1、 __autoload示例：

function __autoload($class_name) {
   echo '__autload class:', $class_name, '<br />';
}

new Demo();

以上的代码在最后会输出：__autload class:Demo。
并在此之后报错显示： Fatal error: Class ‘Demo’ not found

2、spl_autoload_register示例：

function classLoader($class_name) {
    echo 'SPL load class:', $class_name, '<br />';
}

spl_autoload_register('classLoader');

new Demo();

以上的代码在最后会输出：SPL load class:Demo。
并在此之后报错显示： Fatal error: Class ‘Demo’ not found

以上的两个示例表明：当类不存在时（即需要的类不在类符号表），Zend引擎会将再调用一次用户定义的函数，如__autoload或spl_autoload_register注册的函数。如果这两个方法同时存在，那么程序会调用哪一个呢？还是说两个都调用？看下面一个示例，你觉得会输出什么呢？

function __autoload($class_name) {
    echo '__autload class:', $class_name, '<br />';
}

function classLoader($class_name) {
    echo 'SPL load class:', $class_name, '<br />';
}

spl_autoload_register('classLoader');

new Demo();

首先我们看__autload函数。从其命名格式来看，这是一个魔术方法。虽然__autoload和__set、__tostring等类的魔法方法的常量定义在源码级别是一起的，可是它并不是专属于某个类的魔法方法。它是所有的类共用的自动加载魔术方法。它将作为一个全局函数存在。那么Zend引擎是如何在类没有找到时调用这个方法的呢？

不管是使用new关键字创建类的实例，还是使用implement实现接口，或者继承某个类，所有的这些操作都有可能调用__autoload函数。这几个操作在源码层都有一个共同点，它们在执行的时候都需要获取类的信息（接口在本质上也是一个类）。它们在最终都会调用 zend_fetch_class (Zend/zend_execute_API.c)函数，这个函数本身没有多少内容，关键是它调用了zend_lookup_class_ex(Zend/zend_execute_API.c)函数，这个函数就是类的自动加载的真相所在。

在zend_lookup_class_ex函数中，我们看到程序会首先查询类符号表，如果存在类直接返回。如果不存在，就会执行我们所说的自动加载了。这里针对__autoload函数和spl相关的函数都做了处理，并且以第一参数和第二参数传递给Zend引擎的函数调用函数zend_call_function。

在zend_call_function函数中，它会判断第二参数是否存在函数，如果存在函数则只会调用第二个参数传递的函数（这里指SPL注册的函数）。如果第二个函数没有值，则执行第一个参数传递过来的函数（这里指用户定义的__autoload函数）。到这里，我想前面提到的两个方法同时存在的情况应该就有答案了。

潘锦的空间

SaaS SaaS架构团队管理技术管理技术架构 PHP 内核扩展项目管理

分类目录归档：PHP

PHP的词法解析器：re2c

以数组形式访问对象的成员变量

PHP的类自动加载机制