月度归档:2010年02月

PHP源码阅读笔记九:array_unshift, array_push

今天过年了,祝各位朋友新春快乐,万事如意!

PHP源码阅读九:array_unshift, array_push
int array_unshift ( array &array, mixed var [, mixed ...] )

array_unshift() 将传入的单元插入到 array 数组的开头。注意单元是作为整体被插入的,因此传入单元将保持同样的顺序。所有的数值键名将修改为从零开始重新计数,所有的文字键名保持不变。

返回 array 数组新的单元数目。

在standard/array.c的2080行,可以看到此函数的C实现 PHP_FUNCTION(array_unshift)
程序会先判断输入参数的个数是否正确,如果小于2则报错
然后判断第一个参数是否为数组,如果不是,报错退出
然后程序会调用new_hash = php_splice(Z_ARRVAL_P(stack), 0, 0, &args[1], argc-1, NULL);

HashTable* php_splice(HashTable *in_hash, int offset, int length, zval ***list, int list_count, HashTable **removed)
此函数在array.c的1861行
它会先将in_hash(原来的hashtable)复制一部分到新的hashtable,这里的一部分是根据所给的offset和length来计算,array_unshif所给的offset和length都为0,所以这里不复制任何元素给新的hashtable
然后遍历list,针对每个元素分别创建一个zval并使用zend_hash_next_index_insert插入到新的hashtable
然后将in_hash中剩余的元素复制给新的hashtable,我们这里由于offset和length都为0,所以是全部的hashtable
最后,返回新生成的hashtable
整个过程就相当于先把list中的数据写入hashtable,然后把旧的数据写入hashtable,这样就实现了在数组前面插入元素

然后删除旧的数组所在的hashtable并刷新新HashTable,并重置hashtable的内部指针,
返回hashtable中元素的个数(即新生成的数组的长度)

int array_push ( array &array, mixed var [, mixed ...] )

array_push() 将 array 当成一个栈,并将传入的变量压入 array 的末尾。array 的长度将根据入栈变量的数目增加。
和如下效果相同:

1
2
3
<?php
$array[] = $var;
?>

并对每个 var 重复以上动作。

返回数组新的单元总数。

这个实现就比较简单了:
直接遍历所给的参数,对每个元素创建一个zval,并使其引用加一,加到数组所在hashtable的后面。
返回hashtable中元素的个数(即新生成的数组的长度)

PHP源码阅读笔记八:array_pop, array_shift

PHP源码阅读:array_pop, array_shift
要过年了,要放假了,一些事情需要收尾了,一些人也准备回家了,
今年第一次没有回家。。。。。

貌似也有一个星期没有看相关的源码了,是不是上进心没有了?
看样子不能因为某些原因放松对自己的要求,又买了两本书,上个月买的书才看完了一本,要加油了!。。

貌似说了一些废话。。。

在standard/array.c中我们可以找到 array_pop, array_shift这2个函数的C实现

mixed array_pop ( array &array )

array_pop() 弹出并返回 array 数组的最后一个单元,并将数组 array 的长度减一。如果 array 为空(或者不是数组)将返回 NULL

注意: 使用本函数后会重置(reset())数组指针

mixed array_shift ( array &array )

array_shift() 将 array 的第一个单元移出并作为结果返回,将 array 的长度减一并将所有其它单元向前移动一位。所有的数字键名将改为从零开始计数,文字键名将不变。如果 array 为空(或者不是数组),则返回 NULL。

注意: 使用本函数后会重置(reset())数组指针

这两个函数在实现上都是使用的

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
/* {{{ proto mixed array_pop(array stack)
   Pops an element off the end of the array */
PHP_FUNCTION(array_pop)
{
 _phpi_pop(INTERNAL_FUNCTION_PARAM_PASSTHRU, 1);
}
/* }}} */
 
/* {{{ proto mixed array_shift(array stack)
   Pops an element off the beginning of the array */
PHP_FUNCTION(array_shift)
{
 _phpi_pop(INTERNAL_FUNCTION_PARAM_PASSTHRU, 0);
}

程序首先判断输入,然后判断数组中是否有元素,如果数组为空直接返回,
如果是array_pop:
==>zend_hash_internal_pointer_end
==>zend_hash_internal_pointer_end_ex(ht, NULL)
此时直接返回hashtable中双向链表的最后一个元素 ht->pInternalPointer = ht->pListTail;

如果是array_shift:
==>zend_hash_internal_pointer_reset(Z_ARRVAL_PP(stack));
==>zend_hash_internal_pointer_reset_ex(ht, NULL)
此时直接返回hashtable中双向链表的第一个元素 ht->pInternalPointer = ht->pListHead;

得到返回值,通过

1
2
3
4
5
zend_hash_get_current_data 
==> zend_hash_get_current_data_ex(ht, pData, NULL)
 
 p = pos ? (*pos) : ht->pInternalPointer;
*pData = p->pData;

取得hashtable中的值
然后删除hashtable中的这个key值,并调用zend_hash_internal_pointer_reset重置hashtable
这个重置就是:ht->pInternalPointer = ht->pListHead;
即把当前的位置设置为链表的第一个元素。

PHP源码阅读笔记七:nl2br, ltrim, rtrim, trim函数

PHP源码阅读笔记:nl2br, ltrim, rtrim, trim函数

string nl2br ( string string )

Returns string with ‘
‘ inserted before all newlines.

在代码中有注释如下:

/* it is really faster to scan twice and allocate mem once insted scanning once
and constantly reallocing */

程序先计算需要替换的个数,然后一次性计算需要分配的内存大小。从而减少了每次替换都重新分配内存的开销。

由此可见PHP源码的作者的程序优化上下了不少功夫。

源码摘抄如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
 
    str = Z_STRVAL_PP(zstr);    //    字符串开始位置
    end = str + Z_STRLEN_PP(zstr);     //    字符串结束地址
 
    /* it is really faster to scan twice and allocate mem once insted scanning once
       and constantly reallocing */
    while (str < end) {       //    计算需要替换的位置个数
        if (*str == '\r') {
            if (*(str+1) == '\n') {
                str++;
            }
            repl_cnt++;
        } else if (*str == '\n') {
            if (*(str+1) == '\r') {
                str++;
            }
            repl_cnt++;
        }
 
        str++;
    }
 
    if (repl_cnt == 0) {    //    如果没有可替换的字符串,直接返回
        RETURN_STRINGL(Z_STRVAL_PP(zstr), Z_STRLEN_PP(zstr), 1);
    }
 
 
    //    给新生成的字符串分配内存
    new_length = Z_STRLEN_PP(zstr) + repl_cnt * (sizeof("<br />") - 1);
    tmp = target = emalloc(new_length + 1);
 
    str = Z_STRVAL_PP(zstr);
 
    while (str < end) {
        switch (*str) {
            case '\r':    //    没有break,直接转下个case
            case '\n':
                *target++ = '<';
                *target++ = 'b';
                *target++ = 'r';
                *target++ = ' ';
                *target++ = '/';
                *target++ = '>';
 
                if ((*str == '\r' && *(str+1) == '\n') || (*str == '\n' && *(str+1) == '\r')) {
                    *target++ = *str++;
                }
                /* lack of a break; is intentional */
            default:
                *target++ = *str;
        }
 
        str++;
    }
 
    *target = '\0';    //    添加最后的结束字符
 
    RETURN_STRINGL(tmp, new_length, 0);    //    返回结果

ltrim — Strip whitespace (or other characters) from the beginning of a string

rtrim — Strip whitespace (or other characters) from the end of a string

trim — Strip whitespace (or other characters) from the beginning and end of a string

这三个函数都是调用static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)

===》PHPAPI char *php_trim(char *c, int len, char *what, int what_len, zval *return_value, int mode TSRMLS_DC)

实现,依据不同的mode(ltrim => 1, rtrim => 2, trim => 3)实现。

对于第二个参数,指过滤的字符,在默认情况下是 空格 \n\r\t\v\0

在程序中可以看到过滤用的字符仅有char mask[256];即ASCII 码的256个值

在使用php_charmask(unsigned char *input, int len, char *mask TSRMLS_DC)函数创建过滤用的字符HASH数组

如果是1或3(程序实现使用的是 mode & 1),则过滤源字符串前面的字符,从头开始遍历每个字符串,直接hash判断是否是需要过滤的字符,直到第一个不是过滤字符的位置结束

如果是2或 3(程序实现使用的是 mode & 2),则过滤源字符串后面的字符,过程与前面类似。