分类目录归档：PHP

PHP源码，PHP扩展，PHP程序

VLD扩展使用指南

VLD(Vulcan Logic Dumper)是一个在Zend引擎中，以挂钩的方式实现的用于输出PHP脚本生成的中间代码（执行单元）的扩展。它可以在一定程序上查看Zend引擎内部的一些实现原理，是我们学习PHP源码的必备良器。它的作者是Derick Rethans, 除了VLD扩展，我们常用的XDebug扩展的也有该牛人的身影。

VLD扩展是一个开源的项目，在这里可以下载到最新的版本，虽然最新版本的更新也是一年前的事了。作者没有提供编译好的扩展，Win下使用VC6.0编译生成dll文件，可以看我之前写过的一篇文章(使用VC6.0生成VLD扩展)。 *nix系统下直接configue,make,make install生成。如果遇到问题，请自行Google之。

看一个简单的例子,假如存在t.php文件，其内容如下：

$a = 10;
echo $a;

在命令行下使用VLD扩展显示信息。

php -dvld.active=1 t.php

-dvld.active=1表示激活VLD扩展，使用VLD扩展输出中间代码，此命令在CMD中输出信息为：

Branch analysis from position: 0
Return found
filename:       D:\work\xampp\xampp\php\t.php
function name:  (null)
number of ops:  5
compiled vars:  !0 = $a
line     # *  op                           fetch          ext  return  operands
---------------------------------------------------------------------------------
   2     0  >   EXT_STMT
         1      ASSIGN                                                   !0, 10
   3     2      EXT_STMT
         3      ECHO                                                     !0
   4     4    > RETURN                                                   1

branch: #  0; line:     2-    4; sop:     0; eop:     4
path #1: 0,
10

如上为VLD输出的PHP代码生成的中间代码的信息，说明如下：

Branch analysis from position 这条信息多在分析数组时使用。
Return found 是否返回，这个基本上有都有。
filename 分析的文件名
function name 函数名，针对每个函数VLD都会生成一段如上的独立的信息，这里显示当前函数的名称
number of ops 生成的操作数
compiled vars 编译期间的变量，这些变量是在PHP5后添加的，它是一个缓存优化。这样的变量在PHP源码中以IS_CV标记。
op list 生成的中间代码的变量列表

使用-dvld.active参数输出的是VLD默认设置，如果想看更加详细的内容。可以使用-dvld.verbosity参数。

php -dvld.active=1 -dvld.verbosity=3 t.php

-dvld.verbosity=3或更大的值的效果都是一样的，它们是VLD在当前版本可以显示的最详细的信息了，包括各个中间代码的操作数等。显示结果如下：

Finding entry points
Branch analysis from position: 0
Add 0
Add 1
Add 2
Add 3
Add 4
Return found
filename:       D:\work\xampp\xampp\php\t.php
function name:  (null)
number of ops:  5
compiled vars:  !0 = $a
line     # *  op                           fetch          ext  return  operands
--------------------------------------------------------------------------------
-
   2     0  >   EXT_STMT                                          RES[  IS_UNUSED  ]         OP1[  IS_UNUSED  ] OP2[  IS_UNUSED  ]
         1      ASSIGN                                                    OP1[IS_CV !0 ] OP2[ ,  IS_CONST (0) 10 ]
   3     2      EXT_STMT                                          RES[  IS_UNUSED  ]         OP1[  IS_UNUSED  ] OP2[  IS_UNUSED  ]
         3      ECHO                                                      OP1[IS_CV !0 ]
         4    > RETURN                                                    OP1[IS_CONST (0) 1 ]

branch: #  0; line:     2-    3; sop:     0; eop:     4
path #1: 0,
10

以上的信息与没有加-dvld.verbosity=3的输出相比，多了Add 字段，还有中间代码的操作数的类型，如IS_CV,IS_CONST等。 PHP代码中的$a = 10; 其中10的类型为IS_CONST, $a作为一个编译期间的一个缓存变量存在，其类型为IS_CV。

如果我们只是想要看输出的中间代码，并不想执行这段PHP代码，可以使用-dvld.execute=0来禁用代码的执行。

php -dvld.active=1 -dvld.execute=0 t.php

运行这个命令，你会发现这与最开始的输出有一点点不同，它没有输出10。除了直接在屏幕上输出以外，VLD扩展还支持输出.dot文件，如下的命令：

php -dvld.active=1 -dvld.save_dir='D:\tmp' -dvld.save_paths=1 -dvld.dump_paths=1 t.php

以上的命令的意思是将生成的中间代码的一些信息输出在D:/tmp/paths.dot文件中。 -dvld.save_dir指定文件输出的路径，-dvld.save_paths控制是否输出文件，-dvld.dump_paths控制输出的内容，现在只有0和1两种情况。输出的文件名已经在程序中硬编码为paths.dot。这三个参数是相互依赖的关系，一般都会同时出现。

总结一下，VLD扩展的参数列表：

-dvld.active 是否在执行PHP时激活VLD挂钩，默认为0，表示禁用。可以使用-dvld.active=1启用。
-dvld.skip_prepend 是否跳过php.ini配置文件中auto_prepend_file指定的文件，默认为0，即不跳过包含的文件，显示这些包含的文件中的代码所生成的中间代码。此参数生效有一个前提条件：-dvld.execute=0
-dvld.skip_append 是否跳过php.ini配置文件中auto_append_file指定的文件，默认为0，即不跳过包含的文件，显示这些包含的文件中的代码所生成的中间代码。此参数生效有一个前提条件：-dvld.execute=0
-dvld.execute 是否执行这段PHP脚本，默认值为1，表示执行。可以使用-dvld.execute=0，表示只显示中间代码，不执行生成的中间代码。
-dvld.format 是否以自定义的格式显示，默认为0，表示否。可以使用-dvld.format=1，表示以自己定义的格式显示。这里自定义的格式输出是以-dvld.col_sep指定的参数间隔
-dvld.col_sep 在-dvld.format参数启用时此函数才会有效，默认为 “\t”。
-dvld.verbosity 是否显示更详细的信息，默认为1，其值可以为0,1,2,3 其实比0小的也可以，只是效果和0一样，比如0.1之类，但是负数除外，负数和效果和3的效果一样比3大的值也是可以的，只是效果和3一样。
-dvld.save_dir 指定文件输出的路径，默认路径为/tmp。
-dvld.save_paths 控制是否输出文件，默认为0，表示不输出文件
-dvld.dump_paths 控制输出的内容，现在只有0和1两种情况，默认为1,输出内容

UTF-8编码的前世今生

这个标题有点标题党了，其实我想写的是UTF-8编码的一些概况，以及如何使用PHP识别UTF-8编码和PHP对UTF-8编码的支持。文章的目的只是为了理清原本不清楚的概念，完善知识体系。

概述

在不远的曾经，如果应用需要支持国际化(i18n),则需要应用程序能够使用不同的字符集和编码输入、存储和输出数据。不同的字符集都可以展现和编码定义好的字符，但是一个字符集不能使用另一个字符集来显示。当人们受不了这种不兼容时，人们开始考虑使用一种标准的字符集和编码来统一这个世界。于是，在1991年，Unicode产生了。它涵盖了所有已知的可写语言的所有字符的字符集。而UTF-8编码只是UNICODE的一种变长度的编码表达方式。

维基百科中对于UTF-8编码的解释是： UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码（定长码），也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用。

UTF-8适用于紧凑地存储拉丁字母。UTF-8编码的一个优点是它可以编码成字节流，这样可以将透明化底层的体系架构。

UTF-8字节布局

字节数	位数	UTF-8字节流
1	7	0xxxxxxx
2	11	110xxxxx 10xxxxxx
3	16	1110xxxx 10xxxxxx 10xxxxxx
4	21	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5	26	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6	31	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
7	36	11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
8	42	11111111 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

关于BOM

BOM是Byte Order Mark的简称, 它出现在Unicode流的开头部分，用来说明编码类型。因为系统可能是big endian，也可能是little endian, 或者是多字节的Unicode编码.把BOM放置在文件开头部分，利用它来判断字节序。

在UTF-8编码中，BOM没有太大的意义，并且不推荐使用它。在HTML或XML的文件开头放置BOM,可能会导致无法解析。在PHP中，如果头部有BOM,则可能会出现网页头部多一行、导致网页出现乱码或者其它不可预知的错位或错误，因此，我们应该避免在PHP模板文件或源码代码文件的开头放置BOM。但是Windows下，有些程序会默认给utf-8文件添加BOM，此时需要手动清除BOM头，如果此类文件太多，可以考虑写程序遍历指定目录下所有文件，清除开头的BOM.

使用UTF-8编码

输出UTF-8编码文件

如果要告诉浏览器你输出的编码格式，在PHP中可以使用：

 header("Content-Type: text/html; charset=utf-8");

除了这种PHP的方式，也可以使用meta标签设置编码：

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

对于xml文档，它可以直接支持编码作为xml的一部分。

<?xml version="1.0" encoding="utf-8" ?>

PHP中的UTF-8编码支持

在PHP中,内置的字符串函数并不支持多字节的字符串，Unicode需要mbstring扩展支持，此扩展重载了现有的字符串处理函数。 PHP6计划将Unicode支持内置到语言中。

Mysql中的utf-8

如果我们的Mysql是使用utf-8编码，则在执行查询前经常会使用

SET names utf8;

它的作用相当于执行下面的三条语句：

SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = utf8;

在应用中出现编码问题，一个比较笨却有效的办法是将PHP文件，mysql客户端，mysql服务器端，前端页面，全部统一用utf-8编码。另外在phpMyAdmin中有多种字符集，其中utf8_unicode_ci和utf8_general_ci是最常用的，但是utf8_general_ci对某些语言的支持有一些小问题，如果可以接受，那最好使用utf8_general_ci，因为它速度快。否则，请使用较为精确的utf8_unicode_ci，不过速度会慢一些。

识别UTF-8编码

在应用开发过程中，如果需要验证输入是否为UTF-8序列，则可能需要写代码实现相关功能。虽然我们可以指定前端页面为UTF-8，但是我们并不能控制到服务器的数据一定是从指定的页面发送的。因此，我们需要识别UTF-8编码。

/**
 * 识别UTF-8编码 判断一个字符串是否为utf-8编码 2011-04-18 sz
 * @author phppan.p#gmail.com
 * http://www.phppan.com
 * 哥学社成员（http://www.blog-brother.com/）
 * TIPI团队成员（http://www.php-internal.com/）
 * @package blog
 */

/**
 * 判断一个字符串是否为utf-8编码 方法一
 * 依据UTF-8编码的字节布局，以逆向思维，通过判断其不是UTF-8编码来判断正确性。
 * 此算法来源于<<Building Scalable Web Sites>>
 * @param <type> $string
 */
function is_utf8($string) {
    $pattern = '[\xC0-\xDF]([^\x80-\xBF]|$)'; //  匹配110xxxxx，其后应该有1个字节，如果此字节无法匹配10xxxxxx，或为结束符，则不是utf-8
    $pattern .= '|[\xE0-\xEF].{0,1}([^\x80-\xBF]|$)'; //匹配1110xxxx，其后应该有2个字节，
    $pattern .= '|[\xF0-\xF7].{0,2}([^\x80-\xBF]|$)';//匹配11110xxx，其后应该有3个字节，
    $pattern .= '|[\xF8-\xFB].{0,3}([^\x80-\xBF]|$)';//匹配111110xx，其后应该有4个字节，
    $pattern .= '|[\xFC-\xFD].{0,4}([^\x80-\xBF]|$)';//匹配1111110x，其后应该有5个字节，
    $pattern .= '|[\xFE-\xFE].{0,5}([^\x80-\xBF]|$)';//匹配1111110，其后应该有6个字节，
    $pattern .= '|[\x00-\x7F][\x80-\xBF]';
    $pattern .= '|[\xC0-\xDF].[\x80-\xBF]';
    $pattern .= '|[\xE0-\xEF]..[\x80-\xBF]';
    $pattern .= '|[\xF0-\xF7]...[\x80-\xBF]';
    $pattern .= '|[\xF8-\xFB]....[\x80-\xBF]';
    $pattern .= '|[\xFC-\xFD].....[\x80-\xBF]';
    $pattern .= '|[\xFE-\xFE]......[\x80-\xBF]';
    $pattern .= '|^[\x80-\xBF]';

    return preg_match("!$pattern!", $string) ? FALSE : TRUE;
}

/**
 * 网上流传的一个验证方法 方法二
 * @link http://www.w3.org/International/questions/qa-forms-utf-8.en.php
 * @param <type> $string
 * @return <type>
 */
function is_utf8($string) {
    $pattern = '/^(?:';
    $pattern .= '[\x09\x0A\x0D\x20-\x7E]';             # ASCII
    $pattern .= '|[\xC2-\xDF][\x80-\xBF]';             # non-overlong 2-byte
    $pattern .= '|\xE0[\xA0-\xBF][\x80-\xBF]';         # excluding overlongs
    $pattern .= '|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}';  # straight 3-byte
    $pattern .= '|\xED[\x80-\x9F][\x80-\xBF]';         # excluding surrogates
    $pattern .= '|\xF0[\x90-\xBF][\x80-\xBF]{2}';      # planes 1-3
    $pattern .= '|[\xF1-\xF3][\x80-\xBF]{3}';          # planes 4-15
    $pattern .= '|  \xF4[\x80-\x8F][\x80-\xBF]{2}';
    $pattern .= ')*$/xs';

    return preg_match($pattern, $string);
}

/**
 * 判断字符串是否为utf8编码 方法三
 * @param <type> $string
 * @return <type>
 */
function is_utf8($string) {
    if (preg_match("/^([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){1}/", $string) == TRUE
            || preg_match("/([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){1}$/", $string) == TRUE
            || preg_match("/([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){2,}/", $string) == TRUE
    ) {
        return TRUE;
    }

    return FALSE;
}

第一种和第二种基本类似，结果也基本类似，但是对于“营业”等字符串无法准确的识别。第三种方法对于上面提到的字符串可以正确识别，但是对于“欧舒丹”等字符串却无法识别。

什么是PHP高级工程师

众观各大公司在PHP高级工程师的招聘要求，以个人的理解，将共同点抽象出来，得此文，如有与君意见之不同，请留言讨论。

关键词

PHP、高级、系统架构设计、OOP、网络协议、沟通、Linux

定义

以前或现在以PHP为主要开发语言，具有若干年以上工作经验，对OOP有深入认知，掌握各种网络通讯协议，熟练掌握数据库及WEB其它相关知识能够独立完成可扩展系统架构设计的工程师

具体来说，需要具备以下技能：

精通PHP 是精通哦
深入了解面向对象的思想，熟悉常见设计模式
熟悉*nix系统，最好对其内核有一些研究
对某一数据库有十分深入的认识，熟练掌握关系数据库理论
熟悉HTTP、TCP/IP等网络通讯协议
精通构架设计的理论、实践和工具，并掌握多种参考构架、主要的可重用构架机制和模式
良好的代码风格，清晰的编程思路

其它说明

学历学历在各大公司都有明确要求，一般都是本科及其以上，也许有其它相当牛的不在此要求限制之列，但是毕竟这只是少数，要过HR那关，可能得特批。
C/C++ 在招聘高级工程师时，一般都会有对这块的要求，但是都是以具有相关经验者优先出现
文档包括项目中的设计文档，在编码期间的注释能力等，这个属于基本要求
英文读写能力至少要熟练的文档阅读能力，至于英语的口头表述，只有极个别公司或外企需要
算法和数据结构强烈建议具备，这属于基本功之一;不是每个公司都会要求，如果公司不要求，也算是亮点之一
软件工程有些公司要求有相应的软件工程思想，或者有项目管理经验，这与招聘的公司岗位相关
沟通能力具备良好的沟通能力和理解能力，有良好的团队合作能力，这个应该属于基本要求之一
分布式系统这个一般属于附加分项，但至少有使用分布式缓存或数据库的经验。
网络编程部分公司有要求，但是在面试的时候应该都是会问的，所以这个也属于必备技能之一
优化数据库优化，代码优化等，这个应该属于面试必备知识点，但这与经验有较大关系
业内的名气 blog/出书/演讲/开源项目/…

个人感想

思考所有的能力和要求，发现PHP高级工程师与PHP其实没有多大关系，关键在于程序员(programmer)整个知识体系的构建。无论是从操作系统、协议、数据库等硬性要求，还是从文档、英文、沟通等软件要求来看，这不仅仅是一个PHP程序员，它所要表达的是后面五个字：高级工程师。当达到一定的层次，做技术需要追求广度和深度，有自己的特长，有一个完善的知识体系。

语言只是一门工具，不应该局限于一门语言，但必须精通一门语言。没有万能的语言，每种语言都有其存在的意义，或者说都有其适用场景，选择最合适的语言，这也是项目开始时需要规划的内容之一。

以上的内容纯属个人想法，如有雷同，不胜荣幸！

潘锦的空间

SaaS SaaS架构团队管理技术管理技术架构 PHP 内核扩展项目管理