PHP的比较方式(loose and strict comparison)

PHP的官方文档PHP type comparison tables 列出PHP类型和比较运算符在松散和严格比较时的作用。当阅读这篇说明时, 其中有一个NOTE:HTML 表单并不传递整数、浮点数或者布尔值,它们只传递字符串。 道出了我们WEB开发过程中数据交互的本质。 一如XML,JSON等等都是字符串,只是依照不同的需求制定规则,让人们能够更好的理解。 再看HTTP协议,不管是request还是response,最终的载体都是字符串,只是依照不同的字段和规则实现所需要的缓存优化、信息传递等功能。 有点扯远了,回到今天的主题,PHP的比较方式。

PHP的一些语言结构以及函数在默认实现上都是以松散比较的方式实现,如switch结构、array_keys、in_array、array_search等函数。 如果我们要使用严格的比较,对于switch语言结构本身并没有提供相关的实现,我们可以通过先将变量转换成对应的类型后再使用switch, 对于array_keys等函数,在PHP5以后都提供了$strict参数,将其设置为TRUE即可。 PHP的松散和严格比较表现最明显的是==和===。 我们从这两个语法结构来查看PHP对于松散和严格比较的实现。

从词法分析开始,在Zend/zend_language_scanner.l文件中我们找到==和===对应的token,如下:

<ST_IN_SCRIPTING>"===" {
    return T_IS_IDENTICAL;
}

<ST_IN_SCRIPTING>"==" {
    return T_IS_EQUAL;
}

PHP在词法结构上将这两种方式进行彻底的区分,==对应T_IS_EQUAL标识,===对应T_IS_IDENTICAL标识, 如果我们在写程序的过程中同时使用了以上两种符号会出现什么呢?如下代码:

$num = 1;
$str = "1";

if ($num === $str == $num) {
    echo 'phppan';
}

这里就不给出答案了(^_^)。

我们接着看语法解析,在Zend/zend_language_parse.y文件中我们可以看到如下代码:

|   expr T_IS_IDENTICAL expr        { zend_do_binary_op(ZEND_IS_IDENTICAL, &$$, &$1, &$3 TSRMLS_CC); }
|   expr T_IS_EQUAL expr            { zend_do_binary_op(ZEND_IS_EQUAL, &$$, &$1, &$3 TSRMLS_CC); }

仅仅是通过上面的所给的代码,不去查看Zend/zend_complice.c中关于zend_do_binary_op函数的实现, 我们可以猜测出其最终会生成ZEND_IS_EQUAL和ZEND_IS_IDENTICAL中间代码。 最终所有的ZEND_IS_IDENTICAL中间代码对应的执行函数都会调用is_identical_function函数实现严格对比, 所有的ZEND_IS_EQUAL中间代码对应的执行函数都会调用compare_function函数实现松散对比。

compare_function函数的具体实现在Zend/zend_operators.c文件。 compare_function的比较过程是一个穷举遍历比较的过程,程序在实现过程中对于传入的两个变量做类型的识别, 以两个变量的类型对为key,如字符串与字符串比较,数组和数组比较,浮点型和整型的比较,构造的类型对如果顺序不同,其对应的处理也是不同的。 如下列表,为所有可直接识别的类型对:

  • 整型和整型(LONG and LONG)
  • 浮点型和整型(DOUBLE and LONG)
  • 整型和浮点型(LONG and DOUBLE)
  • 浮点型和浮点型(DOUBLE and DOUBLE)
  • 数组和数组(ARRAY and ARRAY)
  • NULL和NULL
  • NULL和BOOL
  • BOOL和NULL
  • 字符串和字符串(STRING and STRING)
  • NULL和字符串
  • 字符串和NULL
  • 对象和NULL
  • NULL和对象
  • 对象和对象(OBJECT and OBJECT)

除此之外,还有一些特殊的情况,如下代码:

$arr = array(1);
$num = 1;

if ($arr == $num) {
    echo 'yes';
}else{
    echo 'no';
}

这些代码最终会输出no,但是在compare_function返回的结果为1。 他不属于上面所说的任一种类型对,由于第一个操作数为数组,则其走的程序流程分支为:

else if (Z_TYPE_P(op1)==IS_ARRAY) {
    ZVAL_LONG(result, 1);
    return SUCCESS;
}

以上的代码将1赋值给result,但是在中间代码的执行函数中,执行完compare_function后会执行如下代码:

ZVAL_BOOL(result, (Z_LVAL_P(result) == 0));

因为比较的最终结果为真假,而在比较中除了0,其他的都是不等于。

如果是比较字符串和整数,则其最终都将字符串转化成数字(整数或浮点数)再进行比较,即最终比较的方法是可以识别的类型对之一。 如果是数组和数组的比较,由于存在数组与数组的对比,则其直接调用zend_compare_arrays完成比较。

与松散比较类似,严格比较也有一个对应的函数–is_identical_function。 同样,其实现也在Zend/zend_operator.c文件。 和loose comparison不同,strict comparison在严格意义上来说进行的不是一个纯粹的比较过程,它首先会判断两个变量所处的ZVAL容器的类型是否一样, 如果不一样直接返回0,即不相等。 如果两个ZVAL窗口的类型一样,则根据比较的第一个操作数的类型作区分,然后判断两个操作数的值是否一样, 这里之所以要分别对待每种类型,是因为在PHP中不同类型的值存储的位置不同,其对应的获取方法也不相同。

在看完了PHP关于松散比较和严格比较的源码,我们最后看一段代码,你觉得应该会输出什么?

$str = "0";
if (empty($str)) {
    echo 1;
}

$str = "00";
if (empty($str)) {
    echo 2;
}

关于缓存

维基百科中有这样一段描述: 凡是位于速度相差较大的两种硬件之间的,用于协调两者数据传输速度差异的结构,均可称之为Cache。 从最初始的处理器与内存间的Cache开始,都是为了让数据访问的速度适应CPU的处理速度, 其基于的原理是内存中“程序执行与数据访问的局域性行为”。

处理器缓存

在处理器与物理内存间有三级缓存,如下图: 

这是《深入理解计算机系统》上的一张图,对于每一层,位于上层的更快更小的存储设备作为位于下层更大更慢的存储设备的缓存。 从物理内存往上越往处理器方向走,存储设备的成本越高,并且更小,访问的速度更快。 它们是作为存储在更大更慢的存储设备的缓存而存在,它们的作用在于协调处理器与物理内存间的传输数据不一致。 但是把内存单独拉出来说,它也是一种缓存,它的作用也是为了将硬盘或其它较慢存储介质中的数据更快的提供给处理器。

DNS缓存

DNS(域名解析系统)缓存是指当第一次访问某个站点的时候,客户端会向DNS服务器发出解析请求, 然后把信息保存在本机的DNS缓存以备再次访问。启用DNS缓存能提高网络访问速度,相应地,计算机的安全性降低了。

HTTP协议缓存

HTTP为提高性能,减少网络传输的信息量,从而使用了缓存。 HTTP协议缓存的目标是去除许多情况下对于发送请求的的需求和去除许多情况下发送完整请求的需求。 在HTTP协议中使用截止模型和证实模型来实现缓存。 协议它只是协议,只是一种通行的建议和规范,关键还是看客户端的实现。 比较直观的体现是:当第一次去一个网站时加载会比较慢,但再次打开这个网站时速度会快很多。 这是由于基于HTTP协议,浏览器客户端将一些CSS,图片等文件都缓存在本地,从而不再需要从服务器读取。

DNS缓存、HTTP协议缓存的作用与处理器缓存有一些不同,虽然也是协调数据传输速度的差异,但是其本质的差别是它已不再是纯粹的两种硬件之间的差异, 而是引入了网络的元素,换一种表示方式:凡是位于速度相差较大的两种实体之间的,用于协调两者数据传输速度差异的结构,均可称之为Cache。

数据库系统缓存

这里没有用数据库缓存是因为数据库与数据库系统在概念上不是一回事。数据库是“按照数据结构来组织、存储和管理数据的仓库”。 而数据库系统是一个实际可运行的存储、维护和应用系统提供数据的软件系统,是存储介质、处理对象和管理系统的集合体。 我们平时所说的数据库缓存是数据库系统所提供的缓存功能。

以MySQL为例,我们使用最多的是查询缓存(Query Cache)。 它的实现过程不是很复杂,当客户端请求了一个查询后,MySQL通过特定的Hash算法生成一个标识用的hash值, 得MySQL计算完后,返回的结果集将与这个生成的hash值对应存放在内存中。若此缓存没有过期时, 下一次相同的请求过来时将直接返回结果,不再需要SQL解析,计算等操作。

PHP内存管理中的缓存

PHP内存管理中的缓存也是基于“程序执行与数据访问的局域性行为”的原理。 引入缓存,就是为了减少小块内存块的查询次数,为最近访问的数据提供更快的访问方式。 其实现过程主要包括以下的一些活动:

  • 标识缓存和缓存的大小限制,即何时使用缓存,在某些情况下可以以最少的修改禁用掉缓存
  • 缓存的存储结构,即缓存的存放位置、结构和存放的逻辑
  • 初始化缓存
  • 获取缓存中内容
  • 写入缓存
  • 释放缓存或者清空缓存列表

文件缓存

此处的文件缓存是指在应用开发过程中将一些中间结果存放在文件,以备下次使用。 如在PHP中一些模板系统的实现,以其规则编写了模板文件,生成中间的PHP文件,如果用户调用某个页面则直接访问PHP页面,而跳过了模板的解析过程

以上三种缓存与前面也不一样,它实际上是将一些需要计算后的结果缓存,下次直接返回计算后的结果。依此,则缓存的表述可以再次修改为: 凡是获取数据速度相差较大的两种实体之间的,用于协调两者数据传输速度差异的结构,均可称之为Cache。

关于Mixin和Trait

其实在想文章题目时,有过纠结,虽然现在有些人将Mixin翻译为“混入”,不过感觉有点怪怪的,所以还是直接用了英文,至少不会出错。 言归正转。

现在排名靠前的面向对象的编程语言中,Java、C#等都是以单继承+接口来实现面向对象,但是这在一定程序了稀释了继承的力量, 因为在业内推荐以组合的方式使用类。这在一些常见的设计模式中有明显的体现,想想在GOF的23个设计模式中有多少个是使用了继承的呢? 大多数是以接口+组合的方式实现。其实作为一个类来说,它也比较难做,即要能代码复用,又得被实例化,偏向谁呢? 这个时候Mixin可能就有一些用武之地了。

Mixin最早起源于一个Lisp,Mixin鼓励代码重用,Mixin可以实现运行时的方法绑定,虽然类的属性和实例参数仍然是在编译时定义。 在面向对象编程语言,Mixin是一个提供了一些被用于继承或在子类中重用的功能的类,它类似于一种多继承, 但是实际上它是一种中小粒度的代码复用单元,而不直接用于实例化。 虽然这不是一种专业的方式进行功能复用,这在实现多继承的同时,在一定程序上避免了多继承的明显问题。

PHP和Java类似,也是单继承+接口。 我们知道,一个类可以实现任意数量的接口,这对一个类需要实现多个抽象的时候非常有用。 然而,对于要实现了多个接口的类,每个类都需要实现这些接口,而大多数情况下,这些接口都是可以共用的。 PHP并没有提供内置机制来定义和使用这些可重用代码,虽然我们可以对一地些接口使用一个抽象类来共用代码,但是如果这些类必须继承另一个抽象类呢? 就算是可以通过抽象类的多次继承实现代码的共用,但是整个继承体系将会变得非常复杂,如果不能实现重用,那么可能我们只得CTRL + C 和 CTRL + V了。 大多数的情况下我们其实只是需要重用一些代码而已。

虽然PHP在之前没有提供完善的解决方案,但在新发布PHP5.4中,出现了一个关键字trait。 通过这个关键字我们可以定义抽象为一个Trait,如下示例:

trait HelloWorld {
    public function sayHello() {
        echo 'Hello World!';
    }
}

class TheWorldIsNotEnough {
    use HelloWorld;
    public function sayHello() {
        echo 'Hello Universe!';
    }
}

$o = new TheWorldIsNotEnough();
$o->sayHello(); // echos Hello Universe!

更多关于Traits的信息, 请参考: Traits for PHP RFC

trait的实现

因为trait是一个语言结构,所以我们从zend_language_scanner.l文件中找到trait对应的关键字标识为:T_TRAIT 在zend_lang_parse.y文件中根据标识找到:

class_entry_type:
        T_CLASS         { $$.u.op.opline_num = CG(zend_lineno); $$.EA = 0; }
    |   T_ABSTRACT T_CLASS { $$.u.op.opline_num = CG(zend_lineno); $$.EA = ZEND_ACC_EXPLICIT_ABSTRACT_CLASS; }
    |   T_TRAIT { $$.u.op.opline_num = CG(zend_lineno); $$.EA = ZEND_ACC_TRAIT; }
    |   T_FINAL T_CLASS { $$.u.op.opline_num = CG(zend_lineno); $$.EA = ZEND_ACC_FINAL_CLASS; }
;

T_TRAIT作为一个关键字和class并级,它作为一个另一种类型的类存在。它将与接口、类处于同一字段标识。 其定义在zend_complie.h文件,如下:

#define ZEND_ACC_IMPLICIT_ABSTRACT_CLASS    0x10
#define ZEND_ACC_EXPLICIT_ABSTRACT_CLASS    0x20
#define ZEND_ACC_FINAL_CLASS                0x40
#define ZEND_ACC_INTERFACE                  0x80
#define ZEND_ACC_TRAIT                      0x120

以上的标识只是对应类的ce_flags结构,除此之外,在为的结构方面也有调整,如下:

struct _zend_class_entry {
    ...//   省略,木有修改
    zend_class_entry **interfaces;  //  接口列表
    zend_uint num_interfaces;   //  接口数

    zend_class_entry **traits;  //  traits列表
    zend_uint num_traits;   //      traits数
    zend_trait_alias **trait_aliases;   //  别名
    zend_trait_precedence **trait_precedences;

}

从上面的结构可以看出,PHP为traits增加了对应的字段存储。从PHP的介绍中我们可知,trait可以动态绑定,则其执行应该是中间代码执行期间。 因此,如果使用了trait关键字,将会有对应的中间代码:ZEND_BIND_TRAITS 生成。 ZEND_BIND_TRAITS关键字最终调用zend_complie.c文件中的zend_do_bind_traits函数完成traits类的绑定,如下代码:

ZEND_API void zend_do_bind_traits(zend_class_entry *ce TSRMLS_DC) /* {{{ */
{

    if (ce->num_traits <= 0) {
        return;
    }

    /* complete initialization of trait strutures in ce */
    zend_traits_init_trait_structures(ce TSRMLS_CC);

    /* first care about all methods to be flattened into the class */
    zend_do_traits_method_binding(ce TSRMLS_CC);

    /* then flatten the properties into it, to, mostly to notfiy developer about problems */
    zend_do_traits_property_binding(ce TSRMLS_CC);

    /* verify that all abstract methods from traits have been implemented */
    zend_verify_abstract_class(ce TSRMLS_CC);

    /* now everything should be fine and an added ZEND_ACC_IMPLICIT_ABSTRACT_CLASS should be removed */
    if (ce->ce_flags & ZEND_ACC_IMPLICIT_ABSTRACT_CLASS) {
        ce->ce_flags -= ZEND_ACC_IMPLICIT_ABSTRACT_CLASS;
    }
}
/* }}} */

以上的绑定过程并不是和接口或类一样的的简单的合并操作,在合并操作之前需要处理引用和别名等情况, 此时类结构中的trait_aliases和trait_precedences就发挥作用了。 trait定义的结构最终也是一个类。