作者归档:admin

PHP中的字符串连接操作

上周和刘志强同学讨论字符串的连接操作:
一般情况下我们用点号做字符串的连接操作,但是如果在某个长字符串中放一个变量,通常我们会采用在字符串中直接写入一个变量的方式来实现

$var = 10;
$str = "test string begin " . $var . " end";
 
//或
$var = 10;
$str = "test string begin $var end";

这二者有什么区别呢?

以VLD扩展直接查看这两段代码生成的中间代码:
点号连接:

number of ops:  7
compiled vars:  !0 = $var, !1 = $str
line     # *  op         ext  return  operands
------------------------------------------------
   2     0  >   EXT_STMT
         1      ASSIGN                  !0, 10
   3     2      EXT_STMT
         3      CONCAT          ~1      'test+string+begin+', !0
         4      CONCAT          ~2      ~1, '+end'
         5      ASSIGN                  !1, ~2
         6    > RETURN                  1

直接在字符串中插入变量:

number of ops:  8
compiled vars:  !0 = $var, !1 = $str
line     # *  op             ext  return  operands
----------------------------------------------------
   2     0  >   EXT_STMT
         1      ASSIGN                      !0, 10
   3     2      EXT_STMT
         3      ADD_STRING          ~1      'test+string+begin+'
         4      ADD_VAR             ~1      ~1, !0
         5      ADD_STRING          ~1      ~1, '+end'
         6      ASSIGN                      !1, ~1
         7    > RETURN                      1

对比这段生成的中间码,其原理完全不一样:

点号是典型的连接操作(当然,它本来就是连接操作),
当使用多个点号是,每两个点号的结果都会使用一个临时变量存储起来,并作为下一个操作的一个操作数。如在我们的示例中,首先是执行第一个连接操作,将“test string begin ”和$var连接起来,得到“test string begin 10”,然后再执行第二个连接操作,将上一个操作得到的结果“test string begin 10”和” end”连接起来,并将结果存储在另一个临时变量,最后将第二个连接操作的结果赋值给$str。

连接操作对应的opcode为ZEND_CONCAT,对于所给的两个操作数,其最终通过concat_function函数将两个字符串连接起来,如果所给的变量的类型不是字符串,则会通过zend_make_printable_zval将其转换成字符串。concat_function函数会根据两个字符串的长度重新分配内存,并执行两次拷贝操作,将两个字符串拷贝到新的内存空间。
这里针对两个字符串相同的情况有一个特殊处理。
如下:

if (result==op1) {	/* special case, perform operations on result */
	uint res_len = Z_STRLEN_P(op1) + Z_STRLEN_P(op2);
 
	Z_STRVAL_P(result) = erealloc(Z_STRVAL_P(result), res_len+1);
 
	memcpy(Z_STRVAL_P(result)+Z_STRLEN_P(result), Z_STRVAL_P(op2), Z_STRLEN_P(op2));
	Z_STRVAL_P(result)[res_len]=0;
	Z_STRLEN_P(result) = res_len;
} else {
	Z_STRLEN_P(result) = Z_STRLEN_P(op1) + Z_STRLEN_P(op2);
	Z_STRVAL_P(result) = (char *) emalloc(Z_STRLEN_P(result) + 1);
	memcpy(Z_STRVAL_P(result), Z_STRVAL_P(op1), Z_STRLEN_P(op1));
	memcpy(Z_STRVAL_P(result)+Z_STRLEN_P(op1), Z_STRVAL_P(op2), Z_STRLEN_P(op2));
	Z_STRVAL_P(result)[Z_STRLEN_P(result)] = 0;
	Z_TYPE_P(result) = IS_STRING;
}

示例执行了两次连接操作,则执行了两次内存分配操作和四次拷贝操作。

而直接在字符串中插入变量,其所有的操作都是添加操作,将字符串添加到返回值,将变量添加到返回值,
所有的结果返回都是在一个临时变量中,如我们的示例,首先会将”test string begin “添加到临时变量,然后将临时变量和$var变量添加到临时变量,之后将临时变量和” end”添加到临时变量,最后将此此时变量赋值给$str。这里添加将字符串添加到临时变量,其对应的opcode为ZEND_ADD_STRING,将变量添加到临时变量,其对应的opcode为ZEND_ADD_VAR,虽然这两个操作的opcode不同,但其最终调用都是add_string_to_string,他们所不同的调用此函数的第三个参数,一个是操作码存储的ZVAL变量,一个是通过变更列表获取的ZVAL变量。
其调用结构如下:

// 添加字符串
zval *str = &EX_T(opline->result.u.var).tmp_var;
add_string_to_string(str, str, &opline->op2.u.constant);
 
//添加变量
zval *str = &EX_T(opline->result.u.var).tmp_var;
zval *var = _get_zval_ptr_tmp(&opline->op2, EX(Ts), &free_op2 TSRMLS_CC);
add_string_to_string(str, str, var);

在添加变量时,如果添加的变量不是字符串,会通过zend_make_printable_zval将变量转换成字符串输出,如数组会转换成Array。
add_string_to_string的实现在Zend/zend_operators.c文件中:

/* must support result==op1 */
ZEND_API int add_string_to_string(zval *result, const zval *op1, const zval *op2) /* {{{ */
{
	int length = Z_STRLEN_P(op1) + Z_STRLEN_P(op2);
 
	Z_STRVAL_P(result) = (char *) erealloc(Z_STRVAL_P(op1), length+1);
	memcpy(Z_STRVAL_P(result)+Z_STRLEN_P(op1), Z_STRVAL_P(op2), Z_STRLEN_P(op2));
	Z_STRVAL_P(result)[length] = 0;
	Z_STRLEN_P(result) = length;
	Z_TYPE_P(result) = IS_STRING;
	return SUCCESS;
}
/* }}} */

add_string_to_string函数的实现过程是针对即将生成的字符串的大小重新通过PHP内核的内存管理扩展内存空间(如果当前空间后续的内存够用,则天下太平,如果空间不够,则重新分配空间并执行拷贝操作),并将新的字符串复制到原始字串后面内存空间的过程。
我们的示例执行了三次添加操作,也就执行了三次内存扩展操作和三次拷贝操作。

关于列表推导式

列表推导式最开始是一些函数式编译语言的句法特征,比如模式匹配,它能极大提高函数式程序的读写能力。最开始并没有列表推导式,只有集合推导式(Set Comprehensions),列表推导式第一次使用是Turner1982年在KRC(Kent Recursive Calculator)上。列表推导式曾经在各种函数式编程语言中出现,如Miranda(一种纯粹的函数式编程语言),Orwell(一种lazy函数式编程语言,对Haskell有较大影响)。

曾经列表推导式被称为集合抽象,由于抽象(abstractions)这个词语的英文单词在若干个地方有用到,其意思太多了,所以引入了推导式(comprehensions)这样一个词语。从数学上的策梅洛-弗兰克尔集合论(Zermelo-Fraenkel Set Theory)(http://en.wikipedia.org/wiki/Zermelo-Frankel_set_theory) 来看,列表推导式和集合推导式类似。比如求集合A中奇数的平方

B = {square x | x ∈ A & odd x}

上面的这个示例,如果A集合是{1,2,3,4},那么B集合为{1,9}

如果我们把这些数学符号换成常见的编程符号,如:

ys = [square x | x <- xs; odd x]

或者我们将<-再变为for in,再加上if语句,是不是就是Python的列表推导式了。

vec = [1, 2, 3, 4]
rs = [x * x for x in vec if x % 2 != 0]
print rs

对应上面的Python示例,我们看下在Python中,列表推导式的一般形式:

[表达式 for item1 in 序列1 ... for itemN in 序列N if 条件表达式]

上面的表达式分为三部分,最左边是生成每个元素的表达式,然后是for 迭代过程,最右边可以设定一个if 判断作为过滤条件。

[]内的列表写以写为一行,也可以写为多行,一般来说多行更易读些,看个人喜好吧。

对于Python而言,列表推导式(List Comprehensions)是其最强有力的语法之一,常用于从集合对象中有选择地获取并计算元素,虽然多数情况下可以使用for、if等语句组合完成同样的任务。

其本质是一种语法糖,它提供了一种简洁高效的方式来创建列表和迭代器, 而不必借助map(), filter(), 或者lambda。
简单的列表推导可以比其它的列表创建方法更加清晰简单. 生成器表达式可以十分高效, 因为它们避免了创建整个列表。这里的优点一般是指使用简单的列表推导式时,而对于复杂的列表推导式虽然可以高效,但是生成的表达式可能难以阅读(不排除通过某些注释或排版达到优化可读性的目的)。列表推导式适用于简单情况. 每个部分应该单独置于一行: 映射表达式, for语句, 过滤器表达式. 禁止多重for语句或过滤器表达式. 复杂情况下还是使用循环吧。

如果我们要用PHP去实现列表推导式,应当如何表现呢?(这里假设我们需要实现这样一个语法糖)

有如下想法,其一般形式如下:

list{表达式1, 表达式2, ... if (条件表达式),  $list1 as $key1 => $row1, $list2 as $key2 => $row2, ...}
 
 
//如下示例:
 
list{echo $key1, echo $row2, if ($key1 > $key2), $a as $key => $row, $b as $key2 => $row2, }

在if语句前可以有多个表达式处理,以逗号隔开;
在if语句后面可以有多个列表,以逗号隔开;

也许这个YY有点纠结,只是对于PHP来说,这个糖果也许没那么重要?

参考资料:

Jones – 《The Implementation of Functional Programming Languages》, PH, 1987

http://zh-google-styleguide.googlecode.com/hg-history/2a227ce093e7b70085818bba22061d9393f3bb99/pyguide/python_language_rules.txt

PHP内核中文件上传类型的获取过程

我们在做WEB应用开发时,经常会遇到文件上传的需求,文件作为一种中间介质将一些信息传递给我们。以PHP为例,如果我们需要实现一个简单的文件上传(假设我们的测试服务器为Apache),首先我们需要有一个前台页面让用户选择文件,这里以一个文件的上传为例:

<form name="upload" action="upload_test.php" method="POST" enctype="multipart/form-data">
<input type="hidden" value="1024" name="MAX_FILE_SIZE" />
请选择文件:<input name="ufile" type="file" />
<input type="submit" value="Just Upload it" />
</form>

当我们选择点击提交按钮时,浏览器会将数据提交给服务器。通过Filddle我们可以看到其提交的请求头如下:

POST http://localhost/test/upload_test.php HTTP/1.1
Host: localhost
Connection: keep-alive
Content-Length: 1347
Cache-Control: max-age=0
Origin: http://localhost
User-Agent: //省略若干
Content-Type: multipart/form-data; boundary=----WebKitFormBoundaryBq7AMhcljN14rJrU 
 
// 上面的是关键
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Referer: http://localhost/test/test.html
Accept-Encoding: gzip,deflate,sdch
Accept-Language: zh-CN,zh;q=0.8
Accept-Charset: GBK,utf-8;q=0.7,*;q=0.3
 
// 以下为POST提交的内容
 
------WebKitFormBoundaryBq7AMhcljN14rJrU
Content-Disposition: form-data; name="MAX_FILE_SIZE"
 
10240
------WebKitFormBoundaryBq7AMhcljN14rJrU
Content-Disposition: form-data; name="ufile"; filename="logo.png"
Content-Type: image/png //这里就是我们想要的文件类型
 
//以下为文件内容

如果我们在upload_test.php文件中打印$_FILES,可以看到上传文件类型为image/png。

对应上面的请求头,image/png在文件内容输出的前面的Content-Type字段中。

基本上我们知道了上传的文件类型是浏览器自己识别,直接以文件的Content-Type字段传递给服务器。那么这些内容在PHP中是如何解析的呢?

文件类型获取过程

当客户端发起文件提交请求时,Apache会将所接收到的内容转交给mod_php5模块。
当PHP接收到请求后,首先会调用sapi_activate,在此函数中程序会根据请求的方法处理数据,如我们示例的POST的方法:

if(!strcmp(SG(request_info).request_method, "POST")
&& (SG(request_info).content_type)) {
/* HTTP POST -> may contain form data to be read into variables
depending on content type given
*/
sapi_read_post_data(TSRMLS_C);
}

sapi_read_post_data在main/SAPI.c中实现,它会根据POST内容的Content-Type类型来选择处理POST内容的方法。

if (zend_hash_find(&SG(known_post_content_types), content_type,
content_type_length+1, (void **) &post_entry) == SUCCESS) {
/* found one, register it for use */
SG(request_info).post_entry = post_entry;
post_reader_func = post_entry->post_reader;
}

以上代码的关键在于SG(known_post_content_types)变量在哪里初始化,其基本过程如下:

sapi_startup
sapi_globals_ctor(&sapi_globals);
php_setup_sapi_content_types(TSRMLS_C);
sapi_register_post_entries(php_post_entries TSRMLS_CC);

这里的的php_post_entries定义在main/php_content_types.c文件。如下:

/* {{{ php_post_entries[]
*/
static sapi_post_entry php_post_entries[] = {
{ DEFAULT_POST_CONTENT_TYPE, sizeof(DEFAULT_POST_CONTENT_TYPE)-1, sapi_read_standard_form_data, php_std_post_handler },
{ MULTIPART_CONTENT_TYPE, sizeof(MULTIPART_CONTENT_TYPE)-1, NULL, rfc1867_post_handler },
{ NULL, 0, NULL, NULL }
};
/* }}} */
 
#define MULTIPART_CONTENT_TYPE "multipart/form-data"
 
#define DEFAULT_POST_CONTENT_TYPE "application/x-www-form-urlencoded"

嗯,这里的MULTIPART_CONTENT_TYPE(multipart/form-data)所对应的rfc1867_post_handler方法就是我们今天要找的核心函数,其定义在main/rfc1867.c文件:SAPI_API SAPI_POST_HANDLER_FUNC(rfc1867_post_handler)

后面获取Content-Type的过程就比较简单了:

  • 通过multipart_buffer_eof控制循环,遍历所有的multipart部分
  • 通过multipart_buffer_headers获取multipart部分的头部信息
  • 通过php_mime_get_hdr_value(header, “Content-Type”)获取类型
  • 通过register_http_post_files_variable(lbuf, cd, http_post_files, 0 TSRMLS_CC);将数据写到$_FILES变量。
SAPI_API SAPI_POST_HANDLER_FUNC(rfc1867_post_handler)
{
 
//若干省略
    while (!multipart_buffer_eof(mbuff TSRMLS_CC)){
        if (!multipart_buffer_headers(mbuff, &header TSRMLS_CC)) {
		goto fileupload_done;
	}
//若干省略
	/* Possible Content-Type: */
	if (cancel_upload || !(cd = php_mime_get_hdr_value(header, "Content-Type"))) {
		cd = "";
	} else { 
	/* fix for Opera 6.01 */
		s = strchr(cd, ';');
		if (s != NULL) {
			*s = '\0';
		}
	}
//若干省略
	/* Add $foo[type] */
	if (is_arr_upload) {
        	snprintf(lbuf, llen, "%s[type][%s]", abuf, array_index);
	} else {
		snprintf(lbuf, llen, "%s[type]", param);
	}
	register_http_post_files_variable(lbuf, cd, http_post_files, 0 TSRMLS_CC);
    //若干省略
    }
}

其它的$_FILES中的size、name等字段,其实现过程与type类似