分类目录归档:PHP

PHP源码,PHP扩展,PHP程序

细读PHP的生命周期

在《Extending and Embedding PHP》中,有一张经典的描述PHP单进程生命周期的图,一直也是按这个图理解其生命周期的,可是当准备一次内核分享时,却表现自己没有什么可以说的,于是就有了今天的这篇文章:细读PHP的生命周期。这里,我们会详细说明在CLI模式下PHP一个生命周期中做了哪些事情。

启动

在调用每个模块的模块初始化前,会有一个初始化的过程,它包括:

  • 初始化若干全局变量

这里的初始化全局变量大多数情况下是将其设置为NULL,有一些除外,比如设置zuf(zend_utility_functions),以zuf.printf_function = php_printf为例,这里的php_printf在zend_startup函数中会被赋值给zend_printf作为全局函数指针使用,而zend_printf函数通常会作为常规字符串输出使用,比如显示程序调用栈的debug_print_backtrace就是使用它打印相关信息。

  • 初始化若干常量

这里的常量是PHP自己的一些常量,这些常量要么是硬编码在程序中,比如PHP_VERSION,要么是写在配置头文件中,比如PEAR_EXTENSION_DIR,这些是写在config.w32.h文件中。

  • 初始化ZEND引擎和核心组件

前面提到的zend_startup函数的作用就是初始化ZEND引擎,这里的初始化操作包括内存管理初始化、全局使用的函数指针初始化(如前面所说的zend_printf等),对PHP源文件进行词法分析、语法分析、中间代码执行的函数指针的赋值,初始化若干HashTable(比如函数表,常量表等等),为ini文件解析做准备,为PHP源文件解析做准备,注册内置函数(如strlen、define等),注册标准常量(如E_ALL、TRUE、NULL等)、注册GLOBALS全局变量等。

  • 解析php.ini

php_init_config函数的作用是读取php.ini文件,设置配置参数,加载zend扩展并注册PHP扩展函数。此函数分为如下几步:初始化参数配置表,调用当前模式下的ini初始化配置,比如CLI模式下,会做如下初始化:

INI_DEFAULT("report_zend_debug", "0");
INI_DEFAULT("display_errors", "1");

不过在其它模式下却没有这样的初始化操作。接下来会的各种操作都是查找ini文件:

  1. 判断是否有php_ini_path_override,在CLI模式下可以通过-c参数指定此路径(在php的命令参数中-c表示在指定的路径中查找ini文件)。
  2. 如果没有php_ini_path_override,判断php_ini_ignore是否为非空(忽略php.ini配置,这里也就CLI模式下有用,使用-n参数)。
  3. 如果不忽略ini配置,则开始处理php_ini_search_path(查找ini文件的路径),这些路径包括CWD(当前路径,不过这种不适用CLI模式)、执行脚本所在目录、环境变量PATH和PHPRC和配置文件中的PHP_CONFIG_FILE_PATH的值。
  4. 在准备完查找路径后,PHP会判断现在的ini路径(php_ini_file_name)是否为文件和是否可打开。如果这里ini路径是文件并且可打开,则会使用此文件, 也就是CLI模式下通过-c参数指定的ini文件的优先级是最高的,其次是PHPRC指定的文件,第三是在搜索路径中查找php-%sapi-module-name%.ini文件(如CLI模式下应该是查找php-cli.ini文件),最后才是搜索路径中查找php.ini文件。
  • 全局操作函数的初始化

php_startup_auto_globals函数会初始化在用户空间所使用频率很高的一些全局变量,如:$_GET、$_POST、$_FILES等。这里只是初始化,所调用的zend_register_auto_global函数也只是将这些变量名添加到CG(auto_globals)这个变量表。

php_startup_sapi_content_types函数用来初始化SAPI对于不同类型内容的处理函数,这里的处理函数包括POST数据默认处理函数、默认数据处理函数等。

  • 初始化静态构建的模块和共享模块(MINIT)

php_register_internal_extensions_func函数用来注册静态构建的模块,也就是默认加载的模块,我们可以将其认为为内置模块。在PHP5.3.0版本中内置的模块包括PHP标准扩展模块(/ext/standard/目录,这里是我们用的最频繁的函数,比如字符串函数,数学函数,数组操作函数等等),日历扩展模块、FTP扩展模块、 session扩展模块等。这些内置模块并不是一成不变的,在不同的PHP模板中,由于不同时间的需求或其它影响因素会导致这些默认加载的模块会变化,比如从代码中我们就可以看到mysql、xml等扩展模块曾经或将来会作为内置模块出现。

模块初始化会执行两个操作: 1. 将这些模块注册到已注册模块列表(module_registry),如果注册的模块已经注册过了,PHP会报Module XXX already loaded的错误。 1. 将每个模块中包含的函数注册到函数表( CG(function_table) ),如果函数无法添加,则会报 Unable to register functions, unable to load。

在注册了静态构建的模块后,PHP会注册附加的模块,不同的模式下可以加载不同的模块集,比如在CLI模式下是没有这些附加的模块的。

在内置模块和附加模块后,接下来是注册通过共享对象(比如DLL)和php.ini文件灵活配置的扩展。

在所有的模块都注册后,PHP会马上执行模块初始化操作(zend_startup_modules)。它的整个过程就是依次遍历每个模块,调用每个模块的模块初始化函数,也就是在本小节前面所说的用宏PHP_MINIT_FUNCTION包含的内容。

  • 禁用函数和类

php_disable_functions函数用来禁用PHP的一些函数。这些被禁用的函数来自PHP的配置文件的disable_functions变量。其禁用的过程是调用zend_disable_function函数将指定的函数名从CG(function_table)函数表中删除。

php_disable_classes函数用来禁用PHP的一些类。这些被禁用的类来自PHP的配置文件的disable_classes变量。其禁用的过程是调用zend_disable_class函数将指定的类名从CG(class_table)类表中删除。

ACTIVATION

在处理了文件相关的内容,PHP会调用php_request_startup做请求初始化操作。请求初始化操作,除了图中显示的调用每个模块的请求初始化函数外,还做了较多的其它工作,其主要内容如下:

  • 激活ZEND引擎

gc_reset函数用来重置垃圾收集机制,当然这是在PHP5.3之后才有的。

init_compiler函数用来初始化编译器,比如将编译过程中在放opcode的数组清空,准备编译时用来的数据结构等等。

init_executor函数用来初始化中间代码执行过程。在编译过程中,函数列表、类列表等都存放在编译时的全局变量中,在准备执行过程时,会将这些列表赋值给执行的全局变量中,如:EG(function_table) = CG(function_table); 中间代码执行是在PHP的执行虚拟栈中,初始化时这些栈等都会一起被初始化。除了栈,还有存放变量的符号表(EG(symbol_table))会被初始化为50个元素的hashtable,存放对象的EG(objects_store)被初始化了1024个元素。 PHP的执行环境除了上面的一些变量外,还有错误处理,异常处理等等,这些都是在这里被初始化的。通过php.ini配置的zend_extensions也是在这里被遍历调用activate函数。

  • 激活SAPI

sapi_activate函数用来初始化SG(sapi_headers)和SG(request_info),并且针对HTTP请求的方法设置一些内容,比如当请求方法为HEAD时,设置SG(request_info).headers_only=1;此函数最重要的一个操作是处理请求的数据,其最终都会调用sapi_module.default_post_reader。而sapi_module.default_post_reader在前面的模块初始化是通过php_startup_sapi_content_types函数注册了默认处理函数为main/php_content_types.c文件中php_default_post_reader函数。此函数会将POST的原始数据写入$HTTP_RAW_POST_DATA变量。

在处理了post数据后,PHP会通过sapi_module.read_cookies读取cookie的值,在CLI模式下,此函数的实现为sapi_cli_read_cookies,而在函数体中却只有一个return NULL;

如果当前模式下有设置activate函数,则运行此函数,激活SAPI,在CLI模式下此函数指针被设置为NULL。

  • 环境初始化

这里的环境初始化是指在用户空间中需要用到的一些环境变量初始化,这里的环境包括服务器环境、请求数据环境等。实际到我们用到的变量,就是$_POST、$_GET、$_COOKIE、$_SERVER、$_ENV、$_FILES。和sapi_module.default_post_reader一样,sapi_module.treat_data的值也是在模块初始化时,通过php_startup_sapi_content_types函数注册了默认数据处理函数为main/php_variables.c文件中php_default_treat_data函数。

以$_COOKIE为例,php_default_treat_data函数会对依据分隔符,将所有的cookie拆分并赋值给对应的变量。

  • 模块请求初始化

PHP通过zend_activate_modules函数实现模块的请求初始化,也就是我们在图中看到Call each extension’s RINIT。此函数通过遍历注册在module_registry变量中的所有模块,调用其RINIT方法实现模块的请求初始化操作。

运行

php_execute_script函数包含了运行PHP脚本的全部过程。

当一个PHP文件需要解析执行时,它可能会需要执行三个文件,其中包括一个前置执行文件、当前需要执行的主文件和一个后置执行文件。非当前的两个文件可以在php.ini文件通过auto_prepend_file参数和auto_append_file参数设置。如果将这两个参数设置为空,则禁用对应的执行文件。

对于需要解析执行的文件,通过zend_compile_file(compile_file函数)做词法分析、语法分析和中间代码生成操作,返回此文件的所有中间代码。如果解析的文件有生成有效的中间代码,则调用zend_execute(execute函数)执行中间代码。如果在执行过程中出现异常并且用户有定义对这些异常的处理,则调用这些异常处理函数。在所有的操作都处理完后,PHP通过EG(return_value_ptr_ptr)返回结果。

DEACTIVATION

PHP关闭请求的过程是一个若干个关闭操作的集合,这个集合存在于php_request_shutdown函数中。这个集合包括如下内容:

  1. 调用所有通过register_shutdown_function()注册的函数。这些在关闭时调用的函数是在用户空间添加进来的。一个简单的例子,我们可以在脚本出错时调用一个统一的函数,给用户一个友好一些的页面,这个有点类似于网页中的404页面。
  2. 执行所有可用的__destruct函数。这里的析构函数包括在对象池(EG(objects_store)中的所有对象的析构函数以及EG(symbol_table)中各个元素的析构方法。
  3. 将所有的输出刷出去。
  4. 发送HTTP应答头。这也是一个输出字符串的过程,只是这个字符串可能符合某些规范。
  5. 遍历每个模块的关闭请求方法,执行模块的请求关闭操作,这就是我们在图中看到的Call each extension’s RSHUTDOWN。
  6. 销毁全局变量表(PG(http_globals))的变量。
  7. 通过zend_deactivate函数,关闭词法分析器、语法分析器和中间代码执行器。
  8. 调用每个扩展的post-RSHUTDOWN函数。只是基本每个扩展的post_deactivate_func函数指针都是NULL。
  9. 关闭SAPI,通过sapi_deactivate销毁SG(sapi_headers)、SG(request_info)等的内容。
  10. 关闭流的包装器、关闭流的过滤器。
  11. 关闭内存管理。
  12. 重新设置最大执行时间

结束

最终到了要收尾的地方了。

  • flush

sapi_flush将最后的内容刷新出去。其调用的是sapi_module.flush,在CLI模式下等价于fflush函数。

  • 关闭ZEND引擎

zend_shutdown将关闭ZEND引擎。

此时对应图中的流程,我们应该是执行每个模块的关闭模块操作。在这里只有一个zend_hash_graceful_reverse_destroy函数将module_registry销毁了。当然,它最终也是调用了关闭模块的方法的,其根源在于在初始化module_registry时就设置了这个hash表析构时调用ZEND_MODULE_DTOR宏。而ZEND_MODULE_DTOR宏对应的是module_destructor函数。在此函数中会调用模块的module_shutdown_func方法,即PHP_RSHUTDOWN_FUNCTION宏产生的那个函数。

在关闭所有的模块后,PHP继续销毁全局函数表,销毁全局类表、销售全局变量表等。通过zend_shutdown_extensions遍历zend_extensions所有元素,调用每个扩展的shutdown函数。

PS: 最近有同学问到TIPI项目的进度问题,主编说:在七月份会有一次版本发布,更多的内容可以查看项目的github。

PHP文件上传进度的实现原理

在PHP5.4之前,如果我们要获取文件上传的进度,可以选择的方案有Flash或使用PHP的uploadprogress扩展。这两种方案存在本质的区别,Flash的上传进度是客户端上传的进度,它是基于本地OS的网络传输,最终其本质上也是一次HTTP的multipart/form-data编码的POST请求;uploadprogress扩展需要依靠JS获取服务器提供的进度,这里的进度是服务器接收的文件进度。

而在PHP5.4之后,我们可以在不添加扩展的情况下,从session数据中获取了文件上传的进度。uploadprogress扩展和PHP5.4的session扩展都能获取上传的进度,其是否有相同的地方呢?

我们先来看uploadprogress扩展,下载源码包,解圧,直接打开文件,我们可以在example中找到一个简单的示例。在info.php文件中,uploadprogress_get_info函数用来获取上传文件进度。upploadprogress.c文件存储了扩展的实现过程。uploadprogress扩展实现的关键在于其模块寝化函数:

PHP_MINIT_FUNCTION(uploadprogress)
{
	REGISTER_INI_ENTRIES();
	php_rfc1867_callback = uploadprogress_php_rfc1867_file;
 
	return SUCCESS;
}

此函数的核心就是设置php_rfc1867_callback为uploadprogress_php_rfc1867_file。
设置这个函数指针有什么用呢?
在前面的文章PHP内核中文件上传类型的获取过程中我们了解到PHP处理POST请求的函数是SAPI_POST_HANDLER_FUNC(rfc1867_post_handler)(main/rfc1867.c)。在这里, 我们发现了若干个php_rfc1867_callback的调用,从调用的第一个参数来看,它可以分为六个事件,或者说有六个回调更新点。

如果此时我们查看PHP5.4的的session扩展的实现文件session.c时,搜索php_rfc1867_callback,你会发现在模块初始化函数中也有与扩展类似的赋值操作:

	php_rfc1867_callback = php_session_rfc1867_callback;

同样,在php_session_rfc1867_callback函数中有与uploadprogress同样的六个事件的处理,这六个事件相当于六个钩子程序,分别对应POST请求的处理的六个不同的位置,在PHP5.4中他们的作用分别是:

  • 1、MULTIPART_EVENT_START 在处理所有的请求实体之前,初始化上传进度信息,比用于记录上传进度相关信息的progress结构体信息(如content-length)
  • 2、MULTIPART_EVENT_FORMDATA 对于每个multipart包含的控制,执行此步初始化操作,以此之前会解析Content-Disposition相关属性,并初始化progress的其它信息,如session_id,以及整个上传活动的key,这里表示整个上传进度准备好了。
  • 3、MULTIPART_EVENT_FILE_START 开始处理上传的文件信息,如果progress的data不存在,则会创建此结构,并初始化session中存储的对于此次文件上传的start_time、content_length、bytes_processed、files等信息。然后处理单个文件的上传属性,如field_name、tmp_name等。对于tmp_name等字段这里是执行初始化操作。这一步的时候获取session 的值才会开始有上传进度的相关信息。
  • 4、MULTIPART_EVENT_FILE_DATA 更新上传文件的长度,在一堆的文件相关信息检测和临时文件写入之前,也是在将数据写入到$_FILES之前。
  • 5、MULTIPART_EVENT_FILE_END 单个文件上传结束,此时会更新这个文件相关的一些信息,比如error, tmp_name,tmp_name字段在start时是null。当然这里还有针对当前文件的done字段的更新。
  • 6、MULTIPART_EVENT_END 更新session数组的最后的一些结信息 比如done字段 并清空progress的信息,

这里的六个事件是相同的,而uploadprogress扩展和PHP5.4的session扩展在事件处理过程中中间存储结构和最后的返回内容与方式上存在一些差异。uploadprogress扩展的存储结构为一个按照扩展制定的规则生成的临时文件,最后是通过扩展函数uploadprogress_get_info返回上传进度的数组。PHP5.4的存储结构为SESSION的存储方式,或者是文件,或者是memcache,这个按session的设置来,其最终是通过$_SESSION返回相关数组。

除了uploadprogress扩展外,APC也以设置php_rfc1867_callback = apc_rfc1867_progress,提供了类似的解决方案,启动此功能需要在php.ini中设置apc.rfc1867项为启用,并且在表单中加一个隐藏域 APC_UPLOAD_PROGRESS,这个域的值可以随机生成一个hash,以确定此次上传操作的唯一性。通过Ajax调用服务端显示进度的接口,在接口中通过apc_fetch函数获取APC缓存的文件上传进度。比如print_r(apc_fetch(“upload_$_POST[APC_UPLOAD_PROGRESS]“));可以得到如下结果:

Array
(
    [total] => 1142543
    [current] => 1142543
    [rate] => 1828068.8
    [filename] => test
    [name] => file
    [temp_filename] => /tmp/php8F
    [cancel_upload] => 0
    [done] => 1
)

apc.rfc1867相关更加详细的内容猛击 APC Runtime Configuration

PHP变量的CV类型

PHP变量的CV类型

在我们使用VLD扩展查看PHP生成的中间代码时,经常会看到有这样一项:compiled vars: !0 = $a,或者如果使用更加详细的 -dvld.verbosity=3参数,会看到IS_CV,IS_VAR等类型。这里所说的Compiled vars和IS_CV都与今天我们所要了解的CV类型有莫大的关系。

CV者,Compiled variable也。
CV类型是PHP编译过程中产生的一种变量类型,以类似于缓存的方式,提高某些变量的存储速度。
与CV类型同一级别的类型还有:

	#define IS_CONST (1<<0)
	#define IS_TMP_VAR (1<<1)
	#define IS_VAR (1<<2)
	#define IS_UNUSED (1<<3) /* Unused variable */
	#define IS_CV (1<<4) /* Compiled variable */

比如最常见的赋值语句:$a = 10;

以php -dvld.active=1 -dvld.verbosity=3 test.php(这段代码在放在test.php文件中)查看。

 
	function name:  (null)
	number of ops:  3
	compiled vars:  !0 = $a
	line     # *  op            return  operands
	----------------------------------------------
	   2     0  >   EXT_STMT       RES[  IS_UNUSED  ]         OP1[  IS_UNUSED  ] OP2[  IS_UNUSED  ]
		 1      ASSIGN                 OP1[IS_CV !0 ] OP2[ ,  IS_CONST (0) 10 ]
	  13     2    > RETURN                 OP1[IS_CONST (0) 1 ]

如上我们可以知道10的类型为IS_CONST,$a的类型为IS_CV。

这里的CV类型在代码运行时存储在哪呢?在什么时候能起到性能优化的作用?

我们知道PHP中间代码运行的数据大部分都放在全局变量execute_data中,对于这个变量我们通常以EX(element)的方式调用,如EX(CVs)、EX(opline)等等。通过对execute_data所有字段的查阅我们可以大概知道CV类型变量存放在EX(CVs)中。

如何判别呢?
同样,以上面的简单赋值语句为例,依据其中间代码(ZEND_ASSIGN),操作数的类型(IS_CV和IS_CONST),可以得出其中间代码最终执行的函数为:ZEND_ASSIGN_SPEC_CV_CONST_HANDLE。在此函数中,对于操作数据处理:

	zval *value = &opline->op2.u.constant;
	zval **variable_ptr_ptr = _get_zval_ptr_ptr_cv(&opline->op1, EX(Ts), BP_VAR_W TSRMLS_CC);

op2为右值,op1为左值,左值的查找处理是_get_zval_ptr_ptr_cv。如下:

	static zend_always_inline zval **_get_zval_ptr_ptr_cv(const znode *node, const temp_variable *Ts, int type TSRMLS_DC)
	{
		zval ***ptr = &CV_OF(node->u.var);
 
		if (UNEXPECTED(*ptr == NULL)) {
			return _get_zval_cv_lookup(ptr, node->u.var, type TSRMLS_CC);
		}
		return *ptr;
	}
 
	// 函数中的CV_OF宏定义
	#define CV_OF(i)     (EG(current_execute_data)->CVs[i])

上面的函数和宏定义道出了CV这个类缓存机制的实现过程和CV类型的存储位置。

在函数中,程序会先判断变量是否存在于EX(CVs) – 这就是存储位置,如果存在则直接返回,否则调用_get_zval_cv_lookup,通过HashTable操作在EG(active_symbol_table)表中查找变量。虽然HashTable的查找操作已经比较快了,但是与原始的数组操作相比还是不在一个数量级。这就是CV类型变量的性能优化点所在。

以上是变量的赋值操作,也是变量的创建过程,与此对应,在变量销毁时PHP内核应该会对此种类型的变量执行清除HashTable和数组两个操作,以unset操作为例,针对IS_CV类型的变量,其中间代码最终会执行ZEND_UNSET_VAR_SPEC_CV_HANDLER。在此函数中不管是ZEND_QUICK_SET类型的操作,还是常规的unset操作,都会对HashTable(EG(active_symbol_table)或target_symbol_table)和数组(EX(CVs)和ex->CVs)执行清除操作。