作者归档:admin

UTF-8编码的前世今生

这个标题有点标题党了,其实我想写的是UTF-8编码的一些概况,以及如何使用PHP识别UTF-8编码和PHP对UTF-8编码的支持。 文章的目的只是为了理清原本不清楚的概念,完善知识体系。

概述

在不远的曾经,如果应用需要支持国际化(i18n),则需要应用程序能够使用不同的字符集和编码输入、存储和输出数据。 不同的字符集都可以展现和编码定义好的字符,但是一个字符集不能使用另一个字符集来显示。 当人们受不了这种不兼容时,人们开始考虑使用一种标准的字符集和编码来统一这个世界。 于是,在1991年,Unicode产生了。 它涵盖了所有已知的可写语言的所有字符的字符集。而UTF-8编码只是UNICODE的一种变长度的编码表达方式。

维基百科中对于UTF-8编码的解释是: UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码), 也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容, 这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。

UTF-8适用于紧凑地存储拉丁字母。UTF-8编码的一个优点是它可以编码成字节流,这样可以将透明化底层的体系架构。

UTF-8字节布局

字节数 位数 UTF-8字节流
1 7 0xxxxxxx
2 11 110xxxxx 10xxxxxx
3 16 1110xxxx 10xxxxxx 10xxxxxx
4 21 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5 26 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6 31 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
7 36 11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
8 42 11111111 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

关于BOM

BOM是Byte Order Mark的简称, 它出现在Unicode流的开头部分,用来说明编码类型。因为系统可能是big endian,也可能是little endian, 或者是多字节的Unicode编码.把BOM放置在文件开头部分,利用它来判断字节序。

在UTF-8编码中,BOM没有太大的意义,并且不推荐使用它。在HTML或XML的文件开头放置BOM,可能会导致无法解析。 在PHP中,如果头部有BOM,则可能会出现网页头部多一行、导致网页出现乱码或者其它不可预知的错位或错误, 因此,我们应该避免在PHP模板文件或源码代码文件的开头放置BOM。 但是Windows下,有些程序会默认给utf-8文件添加BOM,此时需要手动清除BOM头, 如果此类文件太多,可以考虑写程序遍历指定目录下所有文件,清除开头的BOM.

使用UTF-8编码

输出UTF-8编码文件

如果要告诉浏览器你输出的编码格式,在PHP中可以使用:

 header("Content-Type: text/html; charset=utf-8");

除了这种PHP的方式,也可以使用meta标签设置编码:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

对于xml文档,它可以直接支持编码作为xml的一部分。

<?xml version="1.0" encoding="utf-8" ?>

PHP中的UTF-8编码支持

在PHP中,内置的字符串函数并不支持多字节的字符串,Unicode需要mbstring扩展支持,此扩展重载了现有的字符串处理函数。 PHP6计划将Unicode支持内置到语言中。

Mysql中的utf-8

如果我们的Mysql是使用utf-8编码,则在执行查询前经常会使用

SET names utf8;

它的作用相当于执行下面的三条语句:

SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = utf8;

在应用中出现编码问题,一个比较笨却有效的办法是将PHP文件,mysql客户端,mysql服务器端,前端页面,全部统一用utf-8编码。 另外在phpMyAdmin中有多种字符集,其中utf8_unicode_ci和utf8_general_ci是最常用的, 但是utf8_general_ci对某些语言的支持有一些小问题,如果可以接受, 那最好使用utf8_general_ci,因为它速度快。否则,请使用较为精确的utf8_unicode_ci,不过速度会慢一些。

识别UTF-8编码

在应用开发过程中,如果需要验证输入是否为UTF-8序列,则可能需要写代码实现相关功能。 虽然我们可以指定前端页面为UTF-8,但是我们并不能控制到服务器的数据一定是从指定的页面发送的。 因此,我们需要识别UTF-8编码。

/**
 * 识别UTF-8编码 判断一个字符串是否为utf-8编码 2011-04-18 sz
 * @author phppan.p#gmail.com
 * http://www.phppan.com
 * 哥学社成员(http://www.blog-brother.com/)
 * TIPI团队成员(http://www.php-internal.com/)
 * @package blog
 */

/**
 * 判断一个字符串是否为utf-8编码 方法一
 * 依据UTF-8编码的字节布局,以逆向思维,通过判断其不是UTF-8编码来判断正确性。
 * 此算法来源于<<Building Scalable Web Sites>>
 * @param <type> $string
 */
function is_utf8($string) {
    $pattern = '[\xC0-\xDF]([^\x80-\xBF]|$)'; //  匹配110xxxxx,其后应该有1个字节,如果此字节无法匹配10xxxxxx,或为结束符,则不是utf-8
    $pattern .= '|[\xE0-\xEF].{0,1}([^\x80-\xBF]|$)'; //匹配1110xxxx,其后应该有2个字节,
    $pattern .= '|[\xF0-\xF7].{0,2}([^\x80-\xBF]|$)';//匹配11110xxx,其后应该有3个字节,
    $pattern .= '|[\xF8-\xFB].{0,3}([^\x80-\xBF]|$)';//匹配111110xx,其后应该有4个字节,
    $pattern .= '|[\xFC-\xFD].{0,4}([^\x80-\xBF]|$)';//匹配1111110x,其后应该有5个字节,
    $pattern .= '|[\xFE-\xFE].{0,5}([^\x80-\xBF]|$)';//匹配1111110,其后应该有6个字节,
    $pattern .= '|[\x00-\x7F][\x80-\xBF]';
    $pattern .= '|[\xC0-\xDF].[\x80-\xBF]';
    $pattern .= '|[\xE0-\xEF]..[\x80-\xBF]';
    $pattern .= '|[\xF0-\xF7]...[\x80-\xBF]';
    $pattern .= '|[\xF8-\xFB]....[\x80-\xBF]';
    $pattern .= '|[\xFC-\xFD].....[\x80-\xBF]';
    $pattern .= '|[\xFE-\xFE]......[\x80-\xBF]';
    $pattern .= '|^[\x80-\xBF]';

    return preg_match("!$pattern!", $string) ? FALSE : TRUE;
}

/**
 * 网上流传的一个验证方法 方法二
 * @link http://www.w3.org/International/questions/qa-forms-utf-8.en.php
 * @param <type> $string
 * @return <type>
 */
function is_utf8($string) {
    $pattern = '/^(?:';
    $pattern .= '[\x09\x0A\x0D\x20-\x7E]';             # ASCII
    $pattern .= '|[\xC2-\xDF][\x80-\xBF]';             # non-overlong 2-byte
    $pattern .= '|\xE0[\xA0-\xBF][\x80-\xBF]';         # excluding overlongs
    $pattern .= '|[\xE1-\xEC\xEE\xEF][\x80-\xBF]{2}';  # straight 3-byte
    $pattern .= '|\xED[\x80-\x9F][\x80-\xBF]';         # excluding surrogates
    $pattern .= '|\xF0[\x90-\xBF][\x80-\xBF]{2}';      # planes 1-3
    $pattern .= '|[\xF1-\xF3][\x80-\xBF]{3}';          # planes 4-15
    $pattern .= '|  \xF4[\x80-\x8F][\x80-\xBF]{2}';
    $pattern .= ')*$/xs';

    return preg_match($pattern, $string);
}

/**
 * 判断字符串是否为utf8编码 方法三
 * @param <type> $string
 * @return <type>
 */
function is_utf8($string) {
    if (preg_match("/^([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){1}/", $string) == TRUE
            || preg_match("/([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){1}$/", $string) == TRUE
            || preg_match("/([" . chr(228) . "-" . chr(233) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}[" . chr(128) . "-" . chr(191) . "]{1}){2,}/", $string) == TRUE
    ) {
        return TRUE;
    }

    return FALSE;
}

第一种和第二种基本类似,结果也基本类似,但是对于“营业”等字符串无法准确的识别。 第三种方法对于上面提到的字符串可以正确识别,但是对于“欧舒丹”等字符串却无法识别。

什么是PHP高级工程师

众观各大公司在PHP高级工程师的招聘要求,以个人的理解,将共同点抽象出来,得此文,如有与君意见之不同,请留言讨论。

关键词

PHP、高级、系统架构设计、OOP、网络协议、沟通、Linux

定义

以前或现在以PHP为主要开发语言,具有若干年以上工作经验,对OOP有深入认知,掌握各种网络通讯协议,熟练掌握数据库及WEB其它相关知识 能够独立完成可扩展系统架构设计的工程师

具体来说,需要具备以下技能:

  1. 精通PHP 是精通哦
  2. 深入了解面向对象的思想,熟悉常见设计模式
  3. 熟悉*nix系统,最好对其内核有一些研究
  4. 对某一数据库有十分深入的认识,熟练掌握关系数据库理论
  5. 熟悉HTTP、TCP/IP等网络通讯协议
  6. 精通构架设计的理论、实践和工具,并掌握多种参考构架、主要的可重用构架机制和模式
  7. 良好的代码风格,清晰的编程思路

其它说明

  • 学历 学历在各大公司都有明确要求,一般都是本科及其以上,也许有其它相当牛的不在此要求限制之列,但是毕竟这只是少数,要过HR那关,可能得特批。
  • C/C++ 在招聘高级工程师时,一般都会有对这块的要求,但是都是以具有相关经验者优先出现
  • 文档 包括项目中的设计文档,在编码期间的注释能力等,这个属于基本要求
  • 英文读写能力 至少要熟练的文档阅读能力,至于英语的口头表述,只有极个别公司或外企需要
  • 算法和数据结构 强烈建议具备,这属于基本功之一;不是每个公司都会要求,如果公司不要求,也算是亮点之一
  • 软件工程 有些公司要求有相应的软件工程思想,或者有项目管理经验,这与招聘的公司岗位相关
  • 沟通能力 具备良好的沟通能力和理解能力,有良好的团队合作能力,这个应该属于基本要求之一
  • 分布式系统 这个一般属于附加分项,但至少有使用分布式缓存或数据库的经验。
  • 网络编程 部分公司有要求,但是在面试的时候应该都是会问的,所以这个也属于必备技能之一
  • 优化 数据库优化,代码优化等,这个应该属于面试必备知识点,但这与经验有较大关系
  • 业内的名气 blog/出书/演讲/开源项目/…

个人感想

思考所有的能力和要求,发现PHP高级工程师与PHP其实没有多大关系,关键在于程序员(programmer)整个知识体系的构建。 无论是从操作系统、协议、数据库等硬性要求,还是从文档、英文、沟通等软件要求来看,这不仅仅是一个PHP程序员, 它所要表达的是后面五个字:高级工程师。 当达到一定的层次,做技术需要追求广度和深度,有自己的特长,有一个完善的知识体系。

语言只是一门工具,不应该局限于一门语言,但必须精通一门语言。 没有万能的语言,每种语言都有其存在的意义,或者说都有其适用场景,选择最合适的语言,这也是项目开始时需要规划的内容之一。

以上的内容纯属个人想法,如有雷同,不胜荣幸!

PHP内核中的对象管理机制

在PHP中,变量存储在一个名叫ZVAL的容器中。它也是PHP实现弱语言的关键因素之一。 这个容器是一个标记类型和记录所有PHP实现的类型的集合体。而对象作为其存储类型的一种, 以type=IS_OBJECT为标记,以zend_object_value结构体为值。但是zend_object_value的结构体仅有两个字段handle和handlers。 而这两个字段就是今天我们所要说的对象管理机制的关键点。

handle字段是zend_object_handle类型,而zend_object_handle仅仅是unsigned int的一个别名。 这个字段是干嘛用的呢?它是一个索引,是一个对象存储列表的索引。这个对象存储列表是PHP内核中对象的存储地, 或者我们可以称其为“对象池”。

在PHP的请求初始化阶段,PHP会初始化这个对象池,预先分配 1024 个存储对象的空间。 当我们使用 new 关键字创建一个对象时,PHP会将这个对象放入到对象池中,handle字段作为其索引返回。 如果总的对象个数小于1024(或现有列表长度的最大值),则handle会返回最后的一个值, 如果总的对象个数大于1024(或现有列表长度的最大值),则将列表的长度左移一位,将之前的top值作为handle字段返回。 当我们将对象的引用计数减小时,PHP最终会调用对象操作API中的引用计数减少操作函数,当对象的引用计数小于1时会执行垃圾回收机制。

PHP的这个对象存储机制,有点类似于在表设计时将一对多关系中的多的一边独立成一个表存储, 这样的设计不仅仅是低耦合的,而且在对象利用,节省内存等方面有一定的优化。

handlers字段是zend_object_handlers类型,这个类型是一个结构体,包括对象的所有处理函数。默认情况下,对象创建时使用标准处理函数。 对象的变量调用,引用计数处理,克隆,函数调用等等操作都包括在这个结构体中,这相当于是对象处理的统一接口。 对于不同的需求,也可以定制这些处理函数的实现,这又相当于是一个默认值,你可以选择非默认的自定义的处理函数。 如果从面向对象的角度思考这个设计,这应该是一个类似于门面模式 ,或者说是面向接口的编程原则。

对象池的相关操作的实现在 Zend/zend_object_API.c文件,对象的操作的标准实现基本上都在 Zend/zend_object_handlers.c文件。

关于对象的前前后后在即将发布的 TIPI 第五章类和面向对象中有详细说明。