标签归档:PHP源码

几个 PHP 的“魔术常量”

PHP向它运行的任何脚本提供了大量的预定义常量。
不过很多常量都是由不同的扩展库定义的,只有在加载了这些扩展库时才会出现,或者动态加载后,或者在编译时已经包括进去了。

有七个魔术常量它们的值随着它们在代码中的位置改变而改变。例如 __LINE__ 的值就依赖于它在脚本中所处的行来决定。这些特殊的常量不区分大小写。在手册中这几个变量的简单说明如下:
几个 PHP 的“魔术常量”

名称 说明
__LINE__ 文件中的当前行号。
__FILE__ 文件的完整路径和文件名。如果用在被包含文件中,则返回被包含的文件名。自 PHP 4.0.2 起,__FILE__ 总是包含一个绝对路径(如果是符号连接,则是解析后的绝对路径),而在此之前的版本有时会包含一个相对路径。
__DIR__ 文件所在的目录。如果用在被包括文件中,则返回被包括的文件所在的目录。它等价于 dirname(__FILE__)。除非是根目录,否则目录中名不包括末尾的斜杠。(PHP 5.3.0中新增) =
__FUNCTION__ 函数名称(PHP 4.3.0 新加)。自 PHP 5 起本常量返回该函数被定义时的名字(区分大小写)。在 PHP 4 中该值总是小写字母的。
__CLASS__ 类的名称(PHP 4.3.0 新加)。自 PHP 5 起本常量返回该类被定义时的名字(区分大小写)。在 PHP 4 中该值总是小写字母的。
__METHOD__ 类的方法名(PHP 5.0.0 新加)。返回该方法被定义时的名字(区分大小写)。
__NAMESPACE__ 当前命名空间的名称(大小写敏感)。这个常量是在编译时定义的(PHP 5.3.0 新增)

在写这篇文章时,由于把思维局限在语法解析和运行时赋值,导致寻找了好久都没有发现实现原因。还是网上的一篇文章将我们的思维找回到词法分析。PHP内核会在词法解析时将这些相对静态的内容赋值给这些变量,而不是在运行时执行的分析。如下PHP代码:

<?PHP
echo __LINE__;
function demo() {
	echo __FUNCTION__;
}
demo();

其实PHP已经在词法解析时将这些常量换成了对应的值,以上的代码可以看成如下的PHP代码:

<?PHP
echo 2;
function demo() {
	echo "demo";
}
demo();

如果我们使用VLD扩展查看以上的两段代码生成的中间代码,你会发现其结果是一样的。

前面我们有说PHP是在词法分析时做的赋值替换操作,以__FUNCTION__为例,在Zend/zend_language_scanner.l文件中,__FUNCTION__是一个需要分析的元标记(token):

<ST_IN_SCRIPTING>"__FUNCTION__" {
	char *func_name = NULL;
 
	if (CG(active_op_array)) {
		func_name = CG(active_op_array)->function_name;
	}
 
	if (!func_name) {
		func_name = "";
	}
	zendlval->value.str.len = strlen(func_name);
	zendlval->value.str.val = estrndup(func_name, zendlval->value.str.len);
	zendlval->type = IS_STRING;
	return T_FUNC_C;
}

就是这里,当当前中间代码处于一个函数中时,则将当前函数名赋值给zendlval,如果没有,则将空字符串赋值给zendlval(因此在顶级作用域名中直接打印__FUNCTION__会输出空格)。这个值在语法解析时会直接赋值给返回值。这样我们就在生成的中间代码中看到了这些常量的位置都已经赋值好了。

和__FUNCTION__类似,在其附近的位置,上面表格中的其它常量也进行了类似的操作。在PHP5.4中增加了对于trait类的常量定义:__TRAIT__。

这些常量其实相当于一个常量模板,或者说是一个占位符,在词法解析时这些模板或占位符就被替换成实际的值

PHP文件上传进度的实现原理

在PHP5.4之前,如果我们要获取文件上传的进度,可以选择的方案有Flash或使用PHP的uploadprogress扩展。这两种方案存在本质的区别,Flash的上传进度是客户端上传的进度,它是基于本地OS的网络传输,最终其本质上也是一次HTTP的multipart/form-data编码的POST请求;uploadprogress扩展需要依靠JS获取服务器提供的进度,这里的进度是服务器接收的文件进度。

而在PHP5.4之后,我们可以在不添加扩展的情况下,从session数据中获取了文件上传的进度。uploadprogress扩展和PHP5.4的session扩展都能获取上传的进度,其是否有相同的地方呢?

我们先来看uploadprogress扩展,下载源码包,解圧,直接打开文件,我们可以在example中找到一个简单的示例。在info.php文件中,uploadprogress_get_info函数用来获取上传文件进度。upploadprogress.c文件存储了扩展的实现过程。uploadprogress扩展实现的关键在于其模块寝化函数:

PHP_MINIT_FUNCTION(uploadprogress)
{
	REGISTER_INI_ENTRIES();
	php_rfc1867_callback = uploadprogress_php_rfc1867_file;
 
	return SUCCESS;
}

此函数的核心就是设置php_rfc1867_callback为uploadprogress_php_rfc1867_file。
设置这个函数指针有什么用呢?
在前面的文章PHP内核中文件上传类型的获取过程中我们了解到PHP处理POST请求的函数是SAPI_POST_HANDLER_FUNC(rfc1867_post_handler)(main/rfc1867.c)。在这里, 我们发现了若干个php_rfc1867_callback的调用,从调用的第一个参数来看,它可以分为六个事件,或者说有六个回调更新点。

如果此时我们查看PHP5.4的的session扩展的实现文件session.c时,搜索php_rfc1867_callback,你会发现在模块初始化函数中也有与扩展类似的赋值操作:

	php_rfc1867_callback = php_session_rfc1867_callback;

同样,在php_session_rfc1867_callback函数中有与uploadprogress同样的六个事件的处理,这六个事件相当于六个钩子程序,分别对应POST请求的处理的六个不同的位置,在PHP5.4中他们的作用分别是:

  • 1、MULTIPART_EVENT_START 在处理所有的请求实体之前,初始化上传进度信息,比用于记录上传进度相关信息的progress结构体信息(如content-length)
  • 2、MULTIPART_EVENT_FORMDATA 对于每个multipart包含的控制,执行此步初始化操作,以此之前会解析Content-Disposition相关属性,并初始化progress的其它信息,如session_id,以及整个上传活动的key,这里表示整个上传进度准备好了。
  • 3、MULTIPART_EVENT_FILE_START 开始处理上传的文件信息,如果progress的data不存在,则会创建此结构,并初始化session中存储的对于此次文件上传的start_time、content_length、bytes_processed、files等信息。然后处理单个文件的上传属性,如field_name、tmp_name等。对于tmp_name等字段这里是执行初始化操作。这一步的时候获取session 的值才会开始有上传进度的相关信息。
  • 4、MULTIPART_EVENT_FILE_DATA 更新上传文件的长度,在一堆的文件相关信息检测和临时文件写入之前,也是在将数据写入到$_FILES之前。
  • 5、MULTIPART_EVENT_FILE_END 单个文件上传结束,此时会更新这个文件相关的一些信息,比如error, tmp_name,tmp_name字段在start时是null。当然这里还有针对当前文件的done字段的更新。
  • 6、MULTIPART_EVENT_END 更新session数组的最后的一些结信息 比如done字段 并清空progress的信息,

这里的六个事件是相同的,而uploadprogress扩展和PHP5.4的session扩展在事件处理过程中中间存储结构和最后的返回内容与方式上存在一些差异。uploadprogress扩展的存储结构为一个按照扩展制定的规则生成的临时文件,最后是通过扩展函数uploadprogress_get_info返回上传进度的数组。PHP5.4的存储结构为SESSION的存储方式,或者是文件,或者是memcache,这个按session的设置来,其最终是通过$_SESSION返回相关数组。

除了uploadprogress扩展外,APC也以设置php_rfc1867_callback = apc_rfc1867_progress,提供了类似的解决方案,启动此功能需要在php.ini中设置apc.rfc1867项为启用,并且在表单中加一个隐藏域 APC_UPLOAD_PROGRESS,这个域的值可以随机生成一个hash,以确定此次上传操作的唯一性。通过Ajax调用服务端显示进度的接口,在接口中通过apc_fetch函数获取APC缓存的文件上传进度。比如print_r(apc_fetch(“upload_$_POST[APC_UPLOAD_PROGRESS]“));可以得到如下结果:

Array
(
    [total] => 1142543
    [current] => 1142543
    [rate] => 1828068.8
    [filename] => test
    [name] => file
    [temp_filename] => /tmp/php8F
    [cancel_upload] => 0
    [done] => 1
)

apc.rfc1867相关更加详细的内容猛击 APC Runtime Configuration

PHP中的字符串连接操作

上周和刘志强同学讨论字符串的连接操作:
一般情况下我们用点号做字符串的连接操作,但是如果在某个长字符串中放一个变量,通常我们会采用在字符串中直接写入一个变量的方式来实现

$var = 10;
$str = "test string begin " . $var . " end";
 
//或
$var = 10;
$str = "test string begin $var end";

这二者有什么区别呢?

以VLD扩展直接查看这两段代码生成的中间代码:
点号连接:

number of ops:  7
compiled vars:  !0 = $var, !1 = $str
line     # *  op         ext  return  operands
------------------------------------------------
   2     0  >   EXT_STMT
         1      ASSIGN                  !0, 10
   3     2      EXT_STMT
         3      CONCAT          ~1      'test+string+begin+', !0
         4      CONCAT          ~2      ~1, '+end'
         5      ASSIGN                  !1, ~2
         6    > RETURN                  1

直接在字符串中插入变量:

number of ops:  8
compiled vars:  !0 = $var, !1 = $str
line     # *  op             ext  return  operands
----------------------------------------------------
   2     0  >   EXT_STMT
         1      ASSIGN                      !0, 10
   3     2      EXT_STMT
         3      ADD_STRING          ~1      'test+string+begin+'
         4      ADD_VAR             ~1      ~1, !0
         5      ADD_STRING          ~1      ~1, '+end'
         6      ASSIGN                      !1, ~1
         7    > RETURN                      1

对比这段生成的中间码,其原理完全不一样:

点号是典型的连接操作(当然,它本来就是连接操作),
当使用多个点号是,每两个点号的结果都会使用一个临时变量存储起来,并作为下一个操作的一个操作数。如在我们的示例中,首先是执行第一个连接操作,将“test string begin ”和$var连接起来,得到“test string begin 10”,然后再执行第二个连接操作,将上一个操作得到的结果“test string begin 10”和” end”连接起来,并将结果存储在另一个临时变量,最后将第二个连接操作的结果赋值给$str。

连接操作对应的opcode为ZEND_CONCAT,对于所给的两个操作数,其最终通过concat_function函数将两个字符串连接起来,如果所给的变量的类型不是字符串,则会通过zend_make_printable_zval将其转换成字符串。concat_function函数会根据两个字符串的长度重新分配内存,并执行两次拷贝操作,将两个字符串拷贝到新的内存空间。
这里针对两个字符串相同的情况有一个特殊处理。
如下:

if (result==op1) {	/* special case, perform operations on result */
	uint res_len = Z_STRLEN_P(op1) + Z_STRLEN_P(op2);
 
	Z_STRVAL_P(result) = erealloc(Z_STRVAL_P(result), res_len+1);
 
	memcpy(Z_STRVAL_P(result)+Z_STRLEN_P(result), Z_STRVAL_P(op2), Z_STRLEN_P(op2));
	Z_STRVAL_P(result)[res_len]=0;
	Z_STRLEN_P(result) = res_len;
} else {
	Z_STRLEN_P(result) = Z_STRLEN_P(op1) + Z_STRLEN_P(op2);
	Z_STRVAL_P(result) = (char *) emalloc(Z_STRLEN_P(result) + 1);
	memcpy(Z_STRVAL_P(result), Z_STRVAL_P(op1), Z_STRLEN_P(op1));
	memcpy(Z_STRVAL_P(result)+Z_STRLEN_P(op1), Z_STRVAL_P(op2), Z_STRLEN_P(op2));
	Z_STRVAL_P(result)[Z_STRLEN_P(result)] = 0;
	Z_TYPE_P(result) = IS_STRING;
}

示例执行了两次连接操作,则执行了两次内存分配操作和四次拷贝操作。

而直接在字符串中插入变量,其所有的操作都是添加操作,将字符串添加到返回值,将变量添加到返回值,
所有的结果返回都是在一个临时变量中,如我们的示例,首先会将”test string begin “添加到临时变量,然后将临时变量和$var变量添加到临时变量,之后将临时变量和” end”添加到临时变量,最后将此此时变量赋值给$str。这里添加将字符串添加到临时变量,其对应的opcode为ZEND_ADD_STRING,将变量添加到临时变量,其对应的opcode为ZEND_ADD_VAR,虽然这两个操作的opcode不同,但其最终调用都是add_string_to_string,他们所不同的调用此函数的第三个参数,一个是操作码存储的ZVAL变量,一个是通过变更列表获取的ZVAL变量。
其调用结构如下:

// 添加字符串
zval *str = &EX_T(opline->result.u.var).tmp_var;
add_string_to_string(str, str, &opline->op2.u.constant);
 
//添加变量
zval *str = &EX_T(opline->result.u.var).tmp_var;
zval *var = _get_zval_ptr_tmp(&opline->op2, EX(Ts), &free_op2 TSRMLS_CC);
add_string_to_string(str, str, var);

在添加变量时,如果添加的变量不是字符串,会通过zend_make_printable_zval将变量转换成字符串输出,如数组会转换成Array。
add_string_to_string的实现在Zend/zend_operators.c文件中:

/* must support result==op1 */
ZEND_API int add_string_to_string(zval *result, const zval *op1, const zval *op2) /* {{{ */
{
	int length = Z_STRLEN_P(op1) + Z_STRLEN_P(op2);
 
	Z_STRVAL_P(result) = (char *) erealloc(Z_STRVAL_P(op1), length+1);
	memcpy(Z_STRVAL_P(result)+Z_STRLEN_P(op1), Z_STRVAL_P(op2), Z_STRLEN_P(op2));
	Z_STRVAL_P(result)[length] = 0;
	Z_STRLEN_P(result) = length;
	Z_TYPE_P(result) = IS_STRING;
	return SUCCESS;
}
/* }}} */

add_string_to_string函数的实现过程是针对即将生成的字符串的大小重新通过PHP内核的内存管理扩展内存空间(如果当前空间后续的内存够用,则天下太平,如果空间不够,则重新分配空间并执行拷贝操作),并将新的字符串复制到原始字串后面内存空间的过程。
我们的示例执行了三次添加操作,也就执行了三次内存扩展操作和三次拷贝操作。