分类目录归档:PHP

PHP源码,PHP扩展,PHP程序

PHP的词法解析器:re2c

re2c是一个扫描器制作工具,可以创建非常快速灵活的扫描器。它可以产生高效代码,基于C语言,可以支持C/C++代码。 与其它类似的扫描器不同,它偏重于为正则表达式产生高效代码(和他的名字一样)。因此,这比传统的词法分析器有更广泛的应用范围。 你可以在sourceforge.net获取源码。

PHP在最开始的词法解析器是使用的是flex,后来PHP的改为使用re2c。 在源码目录下的Zend/zend_language_scanner.l 文件是re2c的规则文件, 如果需要修改该规则文件需要安装re2c才能重新编译。

re2c调用方式:

re2c [-bdefFghisuvVw1] [-o output] [-c [-t header]] file

我们通过一个简单的例子来看下re2c。如下是一个简单的扫描器,它的作用是判断所给的字符串是数字/小写字母/大小字母。 当然,这里没有做一些输入错误判断等异常操作处理。示例如下:

#include <stdio.h>

char *scan(char *p){
#define YYCTYPE char
#define YYCURSOR p
#define YYLIMIT p
#define YYMARKER q
#define YYFILL(n)
    /*!re2c
      [0-9]+ {return "number";}
      [a-z]+ {return "lower";}
      [A-Z]+ {return "upper";}
      [^] {return "unkown";}
     */
}

int main(int argc, char* argv[])
{
    printf("%s\n", scan(argv[1]));

    return 0;
}

如果你是在ubuntu环境下,可以执行下面的命令生成可执行文件。

re2c -o a.c a.l
gcc a.c -o a
chmod +x a
./a 1000

此时程序会输出number。

我们解释一下我们用到的几个re2c约定的宏。

  • YYCTYPE 用于保存输入符号的类型,通常为char型和unsigned char型
  • YYCURSOR 指向当前输入标记, -当开始时,它指向当前标记的第一个字符,当结束时,它指向下一个标记的第一个字符
  • YYFILL(n) 当生成的代码需要重新加载缓存的标记时,则会调用YYFILL(n)。
  • YYLIMIT 缓存的最后一个字符,生成的代码会反复比较YYCURSOR和YYLIMIT,以确定是否需要重新填充缓冲区。

参照如上几个标识的说明,可以较清楚的理解生成的a.c文件,当然,re2c不会仅仅只有上面代码所显示的标记, 这只是一个简单示例,更多的标识说明和帮助信息请移步 re2c帮助文档http://re2c.org/manual.html

更多编译器相关算法: Compiler Algorithms

以数组形式访问对象的成员变量

在Yii框架中我们可以直接以数组的方式访问对象的成员变量,查看其源码得这些类都实现了ArrayAccess接口。 如果你想让一个类的实例可以以数组的方式访问,实现ArrayAccess接口就可以了。如下示例

class Foo implements ArrayAccess {

    private $_container = array();

    public function __construct() {
    }

    public function offsetSet($offset, $value) {
        $this->_container[$offset] = $value;
    }

    public function offsetExists($offset) {
        return isset($this->_container[$offset]);
    }

    public function offsetUnset($offset) {
        unset($this->_container[$offset]);
    }

    public function offsetGet($offset) {
        return isset($this->_container[$offset]) ? $this->_container[$offset] : NULL;
    }

}

$foo = new Foo;

$foo['test'] = 100;
echo $foo["test"];

这是官网上的一个例子,修改了一些代码,非常简单,它实现了一个类,这个类实现了ArrayAccess接口。 从而我们可以以数组的方式访问或设置值。

什么原因导致可以以这样的方式访问呢?难道仅仅是因为那个接口吗? 归根结底应该是类中的我们约定好的方法,而这些方法中只是接口的形式表现出来了。 如果我们没有实现这个接口,而仅仅某个类拥有了这些方法呢? 当程序执行时,程序会输出: Fatal error: Cannot use object of type Foo as array…

这表示实现这个接口是必须的,如果实现这个接口,那么就一定需要实现这个接口定义的所有方法。 比如我们要以数组的方式读取一个成员变量,那在PHP内核中是如何实现的呢? 通过表象看本质,这里是以数组的方式读取,那么其实现的位置应该还是在方括号符的实现位置。 以VLD查看其中间代码,我们可以得知数组读取变量的中间代码为:ZEND_FETCH_DIM_R 在此中间代码的执行过程中最终都会调用zend_fetch_dimension_address_read函数来读取值。 在这个函数中,它会依据不同容器类型做不同的处理,这些类型包括:数组,字符串、NULL、对象等。 虽然我们是以数组的方式调用对象的属性,但在放对象属性的窗口还是对象。因此,此处程序走的分支是对象, 在此分支中,对于对象,它会调用对象的read_dimension方法,默认情况下,Zend引擎的read_dimension方法默认实现是 zend_std_read_dimension函数(Zend/zend_object_handlers.c)。我们看zend_std_read_dimension函数的实现,如下:

zval *zend_std_read_dimension(zval *object, zval *offset, int type TSRMLS_DC) /* {{{ */
{
    zend_class_entry *ce = Z_OBJCE_P(object);
    zval *retval;

    /* 判断是否为ArrayAccess的子类 */
    if (instanceof_function_ex(ce, zend_ce_arrayaccess, 1 TSRMLS_CC)) {
        if(offset == NULL) {
            /* [] construct */
            ALLOC_INIT_ZVAL(offset);
        } else {
            SEPARATE_ARG_IF_REF(offset);
        }
        zend_call_method_with_1_params(&object, ce, NULL, "offsetget", &retval, offset);

        zval_ptr_dtor(&offset);

        if (!retval) {
            if (!EG(exception)) {
                zend_error(E_ERROR, "Undefined offset for object of type %s used as array", ce->name);
            }
            return 0;
        }

        /* Undo PZVAL_LOCK() */
        Z_DELREF_P(retval);

        return retval;
    } else {
        zend_error(E_ERROR, "Cannot use object of type %s as array", ce->name);
        return 0;
    }
}

从上面的代码我们可以看出:程序会先判断所给对象的类是否为ArrayAccess的子类,如果不是,则会显示错误,这在前面已经猜测,在此证实了。 如果是其子类,则调用offsetget方法获取值。

虽然我们在使用SPL时会比较简单,但是如果要开发一个SPL有时可能就没这么简单了,特别是那些有语言特性的SPL功能(如ArrayAccess),则在实现时可能就需要调用相关语言实现的代码了, 从上面看SPL与语言结构产生了较为严重的耦合,如果这个SPL要去掉,则需要修改的地方不只一处,是否有其它方案? SPL现在本来就是以扩展的形式存在于PHP中,以扩展的方式加载,却不能以扩展的方式卸载。优雅乎?

PHP的类自动加载机制

在PHP5之前,各个PHP框架如果要实现类的自动加载,一般都是按照某种约定自己实现一个遍历目录,自动加载所有符合约定规则的文件的类或函数。 当然,PHP5之前对面向对象的支持并不是太好,类的使用也没有现在频繁。 在PHP5后,当加载PHP类时,如果类所在文件没有被包含进来,或者类名出错,Zend引擎会自动调用__autoload 函数。此函数需要用户自己实现__autoload函数。 在PHP5.1.2版本后,可以使用spl_autoload_register函数自定义自动加载处理函数。当没有调用此函数,默认情况下会使用SPL自定义的spl_autoload函数。 看下面两个例子:

1、 __autoload示例:

function __autoload($class_name) {
   echo '__autload class:', $class_name, '<br />';
}

new Demo();

以上的代码在最后会输出:__autload class:Demo。
并在此之后报错显示: Fatal error: Class ‘Demo’ not found

2、spl_autoload_register示例:

function classLoader($class_name) {
    echo 'SPL load class:', $class_name, '<br />';
}

spl_autoload_register('classLoader');

new Demo();

以上的代码在最后会输出:SPL load class:Demo。
并在此之后报错显示: Fatal error: Class ‘Demo’ not found

以上的两个示例表明:当类不存在时(即需要的类不在类符号表),Zend引擎会将再调用一次用户定义的函数,如__autoload或spl_autoload_register注册的函数。 如果这两个方法同时存在,那么程序会调用哪一个呢?还是说两个都调用?看下面一个示例,你觉得会输出什么呢?

function __autoload($class_name) {
    echo '__autload class:', $class_name, '<br />';
}

function classLoader($class_name) {
    echo 'SPL load class:', $class_name, '<br />';
}

spl_autoload_register('classLoader');

new Demo();

首先我们看__autload函数。从其命名格式来看,这是一个魔术方法。 虽然__autoload和__set、__tostring等类的魔法方法的常量定义在源码级别是一起的, 可是它并不是专属于某个类的魔法方法。它是所有的类共用的自动加载魔术方法。 它将作为一个全局函数存在。那么Zend引擎是如何在类没有找到时调用这个方法的呢?

不管是使用new关键字创建类的实例,还是使用implement实现接口,或者继承某个类, 所有的这些操作都有可能调用__autoload函数。这几个操作在源码层都有一个共同点,它们在执行的时候都需要获取类的信息(接口在本质上也是一个类)。 它们在最终都会调用 zend_fetch_class (Zend/zend_execute_API.c)函数,这个函数本身没有多少内容,关键是它调用了zend_lookup_class_ex(Zend/zend_execute_API.c)函数, 这个函数就是类的自动加载的真相所在。

在zend_lookup_class_ex函数中,我们看到程序会首先查询类符号表,如果存在类直接返回。如果不存在,就会执行我们所说的自动加载了。 这里针对__autoload函数和spl相关的函数都做了处理,并且以第一参数和第二参数传递给Zend引擎的函数调用函数zend_call_function。

在zend_call_function函数中,它会判断第二参数是否存在函数,如果存在函数则只会调用第二个参数传递的函数(这里指SPL注册的函数)。 如果第二个函数没有值,则执行第一个参数传递过来的函数(这里指用户定义的__autoload函数)。 到这里,我想前面提到的两个方法同时存在的情况应该就有答案了。