分类目录归档:PHP

PHP源码,PHP扩展,PHP程序

PHP的比较方式(loose and strict comparison)

PHP的官方文档PHP type comparison tables 列出PHP类型和比较运算符在松散和严格比较时的作用。当阅读这篇说明时, 其中有一个NOTE:HTML 表单并不传递整数、浮点数或者布尔值,它们只传递字符串。 道出了我们WEB开发过程中数据交互的本质。 一如XML,JSON等等都是字符串,只是依照不同的需求制定规则,让人们能够更好的理解。 再看HTTP协议,不管是request还是response,最终的载体都是字符串,只是依照不同的字段和规则实现所需要的缓存优化、信息传递等功能。 有点扯远了,回到今天的主题,PHP的比较方式。

PHP的一些语言结构以及函数在默认实现上都是以松散比较的方式实现,如switch结构、array_keys、in_array、array_search等函数。 如果我们要使用严格的比较,对于switch语言结构本身并没有提供相关的实现,我们可以通过先将变量转换成对应的类型后再使用switch, 对于array_keys等函数,在PHP5以后都提供了$strict参数,将其设置为TRUE即可。 PHP的松散和严格比较表现最明显的是==和===。 我们从这两个语法结构来查看PHP对于松散和严格比较的实现。

从词法分析开始,在Zend/zend_language_scanner.l文件中我们找到==和===对应的token,如下:

<ST_IN_SCRIPTING>"===" {
    return T_IS_IDENTICAL;
}

<ST_IN_SCRIPTING>"==" {
    return T_IS_EQUAL;
}

PHP在词法结构上将这两种方式进行彻底的区分,==对应T_IS_EQUAL标识,===对应T_IS_IDENTICAL标识, 如果我们在写程序的过程中同时使用了以上两种符号会出现什么呢?如下代码:

$num = 1;
$str = "1";

if ($num === $str == $num) {
    echo 'phppan';
}

这里就不给出答案了(^_^)。

我们接着看语法解析,在Zend/zend_language_parse.y文件中我们可以看到如下代码:

|   expr T_IS_IDENTICAL expr        { zend_do_binary_op(ZEND_IS_IDENTICAL, &$$, &$1, &$3 TSRMLS_CC); }
|   expr T_IS_EQUAL expr            { zend_do_binary_op(ZEND_IS_EQUAL, &$$, &$1, &$3 TSRMLS_CC); }

仅仅是通过上面的所给的代码,不去查看Zend/zend_complice.c中关于zend_do_binary_op函数的实现, 我们可以猜测出其最终会生成ZEND_IS_EQUAL和ZEND_IS_IDENTICAL中间代码。 最终所有的ZEND_IS_IDENTICAL中间代码对应的执行函数都会调用is_identical_function函数实现严格对比, 所有的ZEND_IS_EQUAL中间代码对应的执行函数都会调用compare_function函数实现松散对比。

compare_function函数的具体实现在Zend/zend_operators.c文件。 compare_function的比较过程是一个穷举遍历比较的过程,程序在实现过程中对于传入的两个变量做类型的识别, 以两个变量的类型对为key,如字符串与字符串比较,数组和数组比较,浮点型和整型的比较,构造的类型对如果顺序不同,其对应的处理也是不同的。 如下列表,为所有可直接识别的类型对:

  • 整型和整型(LONG and LONG)
  • 浮点型和整型(DOUBLE and LONG)
  • 整型和浮点型(LONG and DOUBLE)
  • 浮点型和浮点型(DOUBLE and DOUBLE)
  • 数组和数组(ARRAY and ARRAY)
  • NULL和NULL
  • NULL和BOOL
  • BOOL和NULL
  • 字符串和字符串(STRING and STRING)
  • NULL和字符串
  • 字符串和NULL
  • 对象和NULL
  • NULL和对象
  • 对象和对象(OBJECT and OBJECT)

除此之外,还有一些特殊的情况,如下代码:

$arr = array(1);
$num = 1;

if ($arr == $num) {
    echo 'yes';
}else{
    echo 'no';
}

这些代码最终会输出no,但是在compare_function返回的结果为1。 他不属于上面所说的任一种类型对,由于第一个操作数为数组,则其走的程序流程分支为:

else if (Z_TYPE_P(op1)==IS_ARRAY) {
    ZVAL_LONG(result, 1);
    return SUCCESS;
}

以上的代码将1赋值给result,但是在中间代码的执行函数中,执行完compare_function后会执行如下代码:

ZVAL_BOOL(result, (Z_LVAL_P(result) == 0));

因为比较的最终结果为真假,而在比较中除了0,其他的都是不等于。

如果是比较字符串和整数,则其最终都将字符串转化成数字(整数或浮点数)再进行比较,即最终比较的方法是可以识别的类型对之一。 如果是数组和数组的比较,由于存在数组与数组的对比,则其直接调用zend_compare_arrays完成比较。

与松散比较类似,严格比较也有一个对应的函数–is_identical_function。 同样,其实现也在Zend/zend_operator.c文件。 和loose comparison不同,strict comparison在严格意义上来说进行的不是一个纯粹的比较过程,它首先会判断两个变量所处的ZVAL容器的类型是否一样, 如果不一样直接返回0,即不相等。 如果两个ZVAL窗口的类型一样,则根据比较的第一个操作数的类型作区分,然后判断两个操作数的值是否一样, 这里之所以要分别对待每种类型,是因为在PHP中不同类型的值存储的位置不同,其对应的获取方法也不相同。

在看完了PHP关于松散比较和严格比较的源码,我们最后看一段代码,你觉得应该会输出什么?

$str = "0";
if (empty($str)) {
    echo 1;
}

$str = "00";
if (empty($str)) {
    echo 2;
}

关于Mixin和Trait

其实在想文章题目时,有过纠结,虽然现在有些人将Mixin翻译为“混入”,不过感觉有点怪怪的,所以还是直接用了英文,至少不会出错。 言归正转。

现在排名靠前的面向对象的编程语言中,Java、C#等都是以单继承+接口来实现面向对象,但是这在一定程序了稀释了继承的力量, 因为在业内推荐以组合的方式使用类。这在一些常见的设计模式中有明显的体现,想想在GOF的23个设计模式中有多少个是使用了继承的呢? 大多数是以接口+组合的方式实现。其实作为一个类来说,它也比较难做,即要能代码复用,又得被实例化,偏向谁呢? 这个时候Mixin可能就有一些用武之地了。

Mixin最早起源于一个Lisp,Mixin鼓励代码重用,Mixin可以实现运行时的方法绑定,虽然类的属性和实例参数仍然是在编译时定义。 在面向对象编程语言,Mixin是一个提供了一些被用于继承或在子类中重用的功能的类,它类似于一种多继承, 但是实际上它是一种中小粒度的代码复用单元,而不直接用于实例化。 虽然这不是一种专业的方式进行功能复用,这在实现多继承的同时,在一定程序上避免了多继承的明显问题。

PHP和Java类似,也是单继承+接口。 我们知道,一个类可以实现任意数量的接口,这对一个类需要实现多个抽象的时候非常有用。 然而,对于要实现了多个接口的类,每个类都需要实现这些接口,而大多数情况下,这些接口都是可以共用的。 PHP并没有提供内置机制来定义和使用这些可重用代码,虽然我们可以对一地些接口使用一个抽象类来共用代码,但是如果这些类必须继承另一个抽象类呢? 就算是可以通过抽象类的多次继承实现代码的共用,但是整个继承体系将会变得非常复杂,如果不能实现重用,那么可能我们只得CTRL + C 和 CTRL + V了。 大多数的情况下我们其实只是需要重用一些代码而已。

虽然PHP在之前没有提供完善的解决方案,但在新发布PHP5.4中,出现了一个关键字trait。 通过这个关键字我们可以定义抽象为一个Trait,如下示例:

trait HelloWorld {
    public function sayHello() {
        echo 'Hello World!';
    }
}

class TheWorldIsNotEnough {
    use HelloWorld;
    public function sayHello() {
        echo 'Hello Universe!';
    }
}

$o = new TheWorldIsNotEnough();
$o->sayHello(); // echos Hello Universe!

更多关于Traits的信息, 请参考: Traits for PHP RFC

trait的实现

因为trait是一个语言结构,所以我们从zend_language_scanner.l文件中找到trait对应的关键字标识为:T_TRAIT 在zend_lang_parse.y文件中根据标识找到:

class_entry_type:
        T_CLASS         { $$.u.op.opline_num = CG(zend_lineno); $$.EA = 0; }
    |   T_ABSTRACT T_CLASS { $$.u.op.opline_num = CG(zend_lineno); $$.EA = ZEND_ACC_EXPLICIT_ABSTRACT_CLASS; }
    |   T_TRAIT { $$.u.op.opline_num = CG(zend_lineno); $$.EA = ZEND_ACC_TRAIT; }
    |   T_FINAL T_CLASS { $$.u.op.opline_num = CG(zend_lineno); $$.EA = ZEND_ACC_FINAL_CLASS; }
;

T_TRAIT作为一个关键字和class并级,它作为一个另一种类型的类存在。它将与接口、类处于同一字段标识。 其定义在zend_complie.h文件,如下:

#define ZEND_ACC_IMPLICIT_ABSTRACT_CLASS    0x10
#define ZEND_ACC_EXPLICIT_ABSTRACT_CLASS    0x20
#define ZEND_ACC_FINAL_CLASS                0x40
#define ZEND_ACC_INTERFACE                  0x80
#define ZEND_ACC_TRAIT                      0x120

以上的标识只是对应类的ce_flags结构,除此之外,在为的结构方面也有调整,如下:

struct _zend_class_entry {
    ...//   省略,木有修改
    zend_class_entry **interfaces;  //  接口列表
    zend_uint num_interfaces;   //  接口数

    zend_class_entry **traits;  //  traits列表
    zend_uint num_traits;   //      traits数
    zend_trait_alias **trait_aliases;   //  别名
    zend_trait_precedence **trait_precedences;

}

从上面的结构可以看出,PHP为traits增加了对应的字段存储。从PHP的介绍中我们可知,trait可以动态绑定,则其执行应该是中间代码执行期间。 因此,如果使用了trait关键字,将会有对应的中间代码:ZEND_BIND_TRAITS 生成。 ZEND_BIND_TRAITS关键字最终调用zend_complie.c文件中的zend_do_bind_traits函数完成traits类的绑定,如下代码:

ZEND_API void zend_do_bind_traits(zend_class_entry *ce TSRMLS_DC) /* {{{ */
{

    if (ce->num_traits <= 0) {
        return;
    }

    /* complete initialization of trait strutures in ce */
    zend_traits_init_trait_structures(ce TSRMLS_CC);

    /* first care about all methods to be flattened into the class */
    zend_do_traits_method_binding(ce TSRMLS_CC);

    /* then flatten the properties into it, to, mostly to notfiy developer about problems */
    zend_do_traits_property_binding(ce TSRMLS_CC);

    /* verify that all abstract methods from traits have been implemented */
    zend_verify_abstract_class(ce TSRMLS_CC);

    /* now everything should be fine and an added ZEND_ACC_IMPLICIT_ABSTRACT_CLASS should be removed */
    if (ce->ce_flags & ZEND_ACC_IMPLICIT_ABSTRACT_CLASS) {
        ce->ce_flags -= ZEND_ACC_IMPLICIT_ABSTRACT_CLASS;
    }
}
/* }}} */

以上的绑定过程并不是和接口或类一样的的简单的合并操作,在合并操作之前需要处理引用和别名等情况, 此时类结构中的trait_aliases和trait_precedences就发挥作用了。 trait定义的结构最终也是一个类。

你可能不了解的strtotime函数

前面的文章中, 我们提到strtotime函数在使用strtotime(“-1 month”)求上一个月的今天时会出一些状况,

因此也引出写这篇文章,本文包括如下内容:

  • strtotime函数的一些用法
  • strtotime函数的实现基本原理
  • strtotime(“-1 month”)求值失败的原因

strtotime函数的一些用法

1、 strtotime(“JAN”)和strtotime(“January”)

这两个用法的效果是一样的,都是返回指定月份的今天,如果指定月份没有今天,则顺延到下一个月。 如在2011-03-31计算二月,代码:

echo date("Y-m-d H:i:s", strtotime("feb", strtotime("2011-03-31")));

程序会输出: 2011-03-03 00:00:00。 从表象来看,这个结果也许不一定是我们想要的,但是这也算是一种解决方案,这种方案是由什么决定的呢? strtotime函数在执行月份的计算时只计算了月份,相当于直接将月份设置为指定的月份的值,而如jan,january都会有一个对应内部数值。

2、 first关键字

first是一个辅助型的关键字,它可以与星期,天等可以指定确认值的关键字组合使用,如求2011年的第一个星期天:

echo date("Y-m-d H:i:s", strtotime("second sunday", strtotime("2011-01-01"))), "<br />";

在PHP的源码中,对于first与星期和天的组合使用是分开的,即first day对应一个处理操作, 在最终的C实现中,天的值指定为1,即time结构中的d字段指定为1,如下代码:

switch (time->relative.first_last_day_of) {
    case 1: /* first */
        time->d = 1;
        break;
    case 2: /* last */
        time->d = 0;
        time->m++;
        break;
}

3、previous和next关键字

与first类似,previous关键字可以与星期,天组合使用,表示指定时间的前一个星期几或前一天。如下所示代码:

echo date("Y-m-d H:i:s", strtotime("previous sunday", strtotime("2011-02-01"))), "<br />";

程序会输出:2011-01-30 00:00:00
程序求2011-02-01的前一个星期天。

next关键字与previous相反,它表示下一个星期几或后一天。

4、 last关键字

last关键字既可以作为上一个,也可以作为最后一个。如求上一个星期天的日期:

echo date("Y-m-d H:i:s", strtotime("last sunday", strtotime("2011-02-05"))), "<br />";

程序会输出: 2011-01-30 00:00:00

当程序作为最后时,其应用场景是指定日期所在月的最后一天,相当于date(“t”)的结果。如求2000年2月的最后一天:

echo date("Y-m-d H:i:s", strtotime("last day", strtotime("2000-02-01"))), "<br />";

first、previous、last和this关键字在re文件中属于同一组。

5、 back和front关键字

这两个关键字是对一天中的小时的向前和向后操作,其调用格式如下:

echo date("Y-m-d H:i:s", strtotime("back of 24", strtotime("2011-02-01"))), "<br />";
echo date("Y-m-d H:i:s", strtotime("front of 24", strtotime("2011-02-01"))), "<br />";
  • back表示将时间设置指定小时值的后一个小时的15分的位置。如果是24点,则算到第二天的0点15分。
  • front表示将时间设置指定小时值的前一个小时的45分的位置。如果是0点,则算前一天的23点45分。

上面的代码输出:2011-02-02 00:15:00 2011-02-01 23:45:00。 其中back of和front of后接的数组必须大于等于0并且小于等于24。

strtotime函数的实现基本原理

官方文档对于strtotime函数的说明是这样的:本函数预期接受一个包含美国英语日期格式的字符串并尝试将其解析为 Unix 时间戳 (自 January 1 1970 00:00:00 GMT 起的秒数),其值相对于 now 参数给出的时间,如果没有提供此参数则用系统当前时间。

这是一个标准PHP内置函数,从PHP4起就已经存在。strtotime函数是以一个扩展的方式加载进来的,在ext/date目录下有其全部实现。 作为一个标准的内置函数,其定义格式也是标准的,如下:

PHP_FUNCTION(strtotime)
    //  处理输入,对于是否有第二个参数有没的处理

    //  调用相关函数,实现字符串的解析和结果计算

    //  返回结果
}

在输入处理中,先识别两个参数都存在的情况并进行处理,如果不是此种状态,则处理第二个参数不存在的情况, 如果都没有,则报错,返回FALSE。

strtotime函数的第一个参数是一个字符串,对于这个字符串,由于其复杂性,PHP使用了其词法解析一样的工具:re2c。在/ext/date/lib目录下,从parse_date.re文件我们可以看到其原始的re文件。 当用户以参数的形式传入一个字符串,此字符串将交给此程序处理,针对其字符串的不同,匹配不同的处理函数。 如strtotime(“yesterday”)调用,分析字符串时,将匹配yesterday字符串,此字符串对应函数如下:

'yesterday'
{
    DEBUG_OUTPUT("yesterday");
    TIMELIB_INIT;
    TIMELIB_HAVE_RELATIVE();
    TIMELIB_UNHAVE_TIME();

    s->time->relative.d = -1;
    TIMELIB_DEINIT;
    return TIMELIB_RELATIVE;
}

这里有几个关键的结构体:

typedef struct Scanner {
    int           fd;
    uchar        *lim, *str, *ptr, *cur, *tok, *pos;
    unsigned int  line, len;
    struct timelib_error_container *errors;

    struct timelib_time *time;
    const timelib_tzdb  *tzdb;
} Scanner;

typedef struct timelib_time {
    timelib_sll      y, m, d;     /* Year, Month, Day */
    timelib_sll      h, i, s;     /* Hour, mInute, Second */
    double           f;           /* Fraction */
    int              z;           /* GMT offset in minutes */
    char            *tz_abbr;     /* Timezone abbreviation (display only) */
    timelib_tzinfo  *tz_info;     /* Timezone structure */
    signed int       dst;         /* Flag if we were parsing a DST zone */
    timelib_rel_time relative;

    timelib_sll      sse;         /* Seconds since epoch */

    unsigned int   have_time, have_date, have_zone, have_relative, have_weeknr_day;

    unsigned int   sse_uptodate; /* !0 if the sse member is up to date with the date/time members */
    unsigned int   tim_uptodate; /* !0 if the date/time members are up to date with the sse member */
    unsigned int   is_localtime; /*  1 if the current struct represents localtime, 0 if it is in GMT */
    unsigned int   zone_type;    /*  1 time offset,
                                  *  3 TimeZone identifier,
                                  *  2 TimeZone abbreviation */
} timelib_time;

typedef struct timelib_rel_time {
    timelib_sll y, m, d; /* Years, Months and Days */
    timelib_sll h, i, s; /* Hours, mInutes and Seconds */

    int weekday; /* Stores the day in 'next monday' */
    int weekday_behavior; /* 0: the current day should *not* be counted when advancing forwards; 1: the current day *should* be counted */

    int first_last_day_of;
    int invert; /* Whether the difference should be inverted */
    timelib_sll days; /* Contains the number of *days*, instead of Y-M-D differences */

    timelib_special  special;
    unsigned int   have_weekday_relative, have_special_relative;
} timelib_rel_time;

s->time->relative.d = -1;所表示的意思是当前时间的相对天数是-1。 这只是中间词法解析的中间结果,但是最后结果是通过这些中间结果计算出来的。

strtotime(“-1 month”)求值失败的原因

虽然strtotime(“-1 month”)这种方法对于后一个月比前一个月的天数的情况会求值失败,但是从其本质上来说,这并没有错。 PHP这样实现也无可厚非。只是我们的需求决定了我们不能使用这种方法,因此我们称其为求值失败。

我们来看它的实现过程,由于没有第二个参数,所以程序使用默认的当前时间。 第一个参数传入的是-1 month字符串,这个字符串所对应的re文件中的正则为:

reltextunit = (('sec'|'second'|'min'|'minute'|'hour'|'day'|'fortnight'|'forthnight'|'month'|'year') 's'?) | 'weeks' | daytext;

relnumber = ([+-]*[ \t]*[0-9]+);
relative = relnumber space? (reltextunit | 'week' );

最终relative会对应一系列操作,程序会识别出前面的-1 和后面的month字符串,month对应一种操作类型:TIMELIB_MONTH。 在此之后,根据识别出来的数字和操作类型执行操作,如下代码:

case TIMELIB_MONTH:  s->time->relative.m += amount * relunit->multiplier; break;

如上代码,则是直接记录月份的相对值减一。 但是对于类似于3月31号这样的情况,2月没有31号,程序会自动将日期计算到下一个月。