月度归档：2010年02月

PHP源码阅读笔记九：array_unshift, array_push

今天过年了，祝各位朋友新春快乐，万事如意！

PHP源码阅读九：array_unshift, array_push
int array_unshift ( array &array, mixed var [, mixed ...] )

array_unshift() 将传入的单元插入到 array 数组的开头。注意单元是作为整体被插入的，因此传入单元将保持同样的顺序。所有的数值键名将修改为从零开始重新计数，所有的文字键名保持不变。

返回 array 数组新的单元数目。

在standard/array.c的2080行，可以看到此函数的C实现 PHP_FUNCTION(array_unshift)
程序会先判断输入参数的个数是否正确，如果小于2则报错
然后判断第一个参数是否为数组，如果不是，报错退出
然后程序会调用new_hash = php_splice(Z_ARRVAL_P(stack), 0, 0, &args[1], argc-1, NULL);

HashTable* php_splice(HashTable *in_hash, int offset, int length, zval ***list, int list_count, HashTable **removed)
此函数在array.c的1861行
它会先将in_hash(原来的hashtable)复制一部分到新的hashtable，这里的一部分是根据所给的offset和length来计算，array_unshif所给的offset和length都为0,所以这里不复制任何元素给新的hashtable
然后遍历list，针对每个元素分别创建一个zval并使用zend_hash_next_index_insert插入到新的hashtable
然后将in_hash中剩余的元素复制给新的hashtable，我们这里由于offset和length都为0，所以是全部的hashtable
最后，返回新生成的hashtable
整个过程就相当于先把list中的数据写入hashtable,然后把旧的数据写入hashtable，这样就实现了在数组前面插入元素

然后删除旧的数组所在的hashtable并刷新新HashTable，并重置hashtable的内部指针，
返回hashtable中元素的个数（即新生成的数组的长度）

int array_push ( array &array, mixed var [, mixed ...] )

array_push() 将 array 当成一个栈，并将传入的变量压入 array 的末尾。array 的长度将根据入栈变量的数目增加。
和如下效果相同：

1
2
3

<?php
$array[] = $var;
?>

并对每个 var 重复以上动作。

返回数组新的单元总数。

这个实现就比较简单了：
直接遍历所给的参数，对每个元素创建一个zval，并使其引用加一，加到数组所在hashtable的后面。
返回hashtable中元素的个数（即新生成的数组的长度）

PHP源码阅读笔记八：array_pop, array_shift

发表回复

PHP源码阅读：array_pop, array_shift
要过年了，要放假了，一些事情需要收尾了，一些人也准备回家了，
今年第一次没有回家。。。。。

貌似也有一个星期没有看相关的源码了，是不是上进心没有了？
看样子不能因为某些原因放松对自己的要求，又买了两本书，上个月买的书才看完了一本，要加油了！。。

貌似说了一些废话。。。

在standard/array.c中我们可以找到 array_pop, array_shift这2个函数的C实现

mixed array_pop ( array &array )

array_pop() 弹出并返回 array 数组的最后一个单元，并将数组 array 的长度减一。如果 array 为空（或者不是数组）将返回 NULL

注意: 使用本函数后会重置（reset()）数组指针

mixed array_shift ( array &array )

array_shift() 将 array 的第一个单元移出并作为结果返回，将 array 的长度减一并将所有其它单元向前移动一位。所有的数字键名将改为从零开始计数，文字键名将不变。如果 array 为空（或者不是数组），则返回 NULL。

注意: 使用本函数后会重置（reset()）数组指针

这两个函数在实现上都是使用的

 
/* {{{ proto mixed array_pop(array stack)
   Pops an element off the end of the array */
PHP_FUNCTION(array_pop)
{
 _phpi_pop(INTERNAL_FUNCTION_PARAM_PASSTHRU, 1);
}
/* }}} */
 
/* {{{ proto mixed array_shift(array stack)
   Pops an element off the beginning of the array */
PHP_FUNCTION(array_shift)
{
 _phpi_pop(INTERNAL_FUNCTION_PARAM_PASSTHRU, 0);
}

程序首先判断输入，然后判断数组中是否有元素，如果数组为空直接返回，
如果是array_pop:
==>zend_hash_internal_pointer_end
==>zend_hash_internal_pointer_end_ex(ht, NULL)
此时直接返回hashtable中双向链表的最后一个元素 ht->pInternalPointer = ht->pListTail;

如果是array_shift:
==>zend_hash_internal_pointer_reset(Z_ARRVAL_PP(stack));
==>zend_hash_internal_pointer_reset_ex(ht, NULL)
此时直接返回hashtable中双向链表的第一个元素 ht->pInternalPointer = ht->pListHead;

得到返回值，通过

zend_hash_get_current_data 
==> zend_hash_get_current_data_ex(ht, pData, NULL)
 
 p = pos ? (*pos) : ht->pInternalPointer;
*pData = p->pData;

取得hashtable中的值
然后删除hashtable中的这个key值，并调用zend_hash_internal_pointer_reset重置hashtable
这个重置就是：ht->pInternalPointer = ht->pListHead;
即把当前的位置设置为链表的第一个元素。

PHP源码阅读笔记七：nl2br, ltrim, rtrim, trim函数

5条回复

PHP源码阅读笔记：nl2br, ltrim, rtrim, trim函数

string nl2br ( string string )

Returns string with ‘
‘ inserted before all newlines.

在代码中有注释如下：

/* it is really faster to scan twice and allocate mem once insted scanning once
and constantly reallocing */

程序先计算需要替换的个数，然后一次性计算需要分配的内存大小。从而减少了每次替换都重新分配内存的开销。

由此可见PHP源码的作者的程序优化上下了不少功夫。

源码摘抄如下：

 
    str = Z_STRVAL_PP(zstr);    //    字符串开始位置
    end = str + Z_STRLEN_PP(zstr);     //    字符串结束地址
 
    /* it is really faster to scan twice and allocate mem once insted scanning once
       and constantly reallocing */
    while (str < end) {       //    计算需要替换的位置个数
        if (*str == '\r') {
            if (*(str+1) == '\n') {
                str++;
            }
            repl_cnt++;
        } else if (*str == '\n') {
            if (*(str+1) == '\r') {
                str++;
            }
            repl_cnt++;
        }
 
        str++;
    }
 
    if (repl_cnt == 0) {    //    如果没有可替换的字符串，直接返回
        RETURN_STRINGL(Z_STRVAL_PP(zstr), Z_STRLEN_PP(zstr), 1);
    }
 
 
    //    给新生成的字符串分配内存
    new_length = Z_STRLEN_PP(zstr) + repl_cnt * (sizeof("<br />") - 1);
    tmp = target = emalloc(new_length + 1);
 
    str = Z_STRVAL_PP(zstr);
 
    while (str < end) {
        switch (*str) {
            case '\r':    //    没有break,直接转下个case
            case '\n':
                *target++ = '<';
                *target++ = 'b';
                *target++ = 'r';
                *target++ = ' ';
                *target++ = '/';
                *target++ = '>';
 
                if ((*str == '\r' && *(str+1) == '\n') || (*str == '\n' && *(str+1) == '\r')) {
                    *target++ = *str++;
                }
                /* lack of a break; is intentional */
            default:
                *target++ = *str;
        }
 
        str++;
    }
 
    *target = '\0';    //    添加最后的结束字符
 
    RETURN_STRINGL(tmp, new_length, 0);    //    返回结果

ltrim — Strip whitespace (or other characters) from the beginning of a string

rtrim — Strip whitespace (or other characters) from the end of a string

trim — Strip whitespace (or other characters) from the beginning and end of a string

这三个函数都是调用static void php_do_trim(INTERNAL_FUNCTION_PARAMETERS, int mode)

===》PHPAPI char *php_trim(char *c, int len, char *what, int what_len, zval *return_value, int mode TSRMLS_DC)

实现，依据不同的mode(ltrim => 1, rtrim => 2, trim => 3)实现。

对于第二个参数，指过滤的字符，在默认情况下是空格 \n\r\t\v\0

在程序中可以看到过滤用的字符仅有char mask[256];即ASCII 码的256个值

在使用php_charmask(unsigned char *input, int len, char *mask TSRMLS_DC)函数创建过滤用的字符HASH数组

如果是1或3（程序实现使用的是 mode & 1)，则过滤源字符串前面的字符，从头开始遍历每个字符串，直接hash判断是否是需要过滤的字符，直到第一个不是过滤字符的位置结束

如果是2或 3（程序实现使用的是 mode & 2)，则过滤源字符串后面的字符，过程与前面类似。

潘锦的空间

技术管理技术架构 PHP 内核扩展项目管理

月度归档：2010年02月

PHP源码阅读笔记九：array_unshift, array_push

PHP源码阅读笔记八：array_pop, array_shift

PHP源码阅读笔记七：nl2br, ltrim, rtrim, trim函数