标签归档:PHP源码阅读笔记

如何在用户中断时停止程序的运行

当我们以WEB的方式运行PHP脚本时,默认情况下,即使你关闭当前页面,程序也会继续执行,直接程序结束或超时。如果我们想在用户关闭页面或点击了停止页面运行时就中断程序,我们需要做些什么呢?上周和小毅同学讨论了这个问题,从而也引出了今天我们这篇文章。

我们知道HTTP协议是基于TCP/IP协议,对于一个PHP页面的请求就是一个HTTP请求(假设我们是Apache服务器),从而会创建TCP连接,当用户中断请求时,会给服务器一个abort状态。这个abort状态就是今天我们要讲的关键点。

在PHP中有一个函数与abort状态有关:ignore_user_abort函数
ignore_user_abort() 函数设置与客户机断开时是否会终止脚本的执行。它返回 user-abort 之前设置的布尔值。它的参数可选。如果设置为 true,则忽略与用户的断开,如果设置为 false,会导致脚本停止运行。

PHP 不会检测到用户是否已断开连接,直到尝试向客户机发送信息为止。因此如果我们只是使用echo语句,可能无法如实的看到abort的效果,因为PHP在输出时会有一个缓存,如果要刷新缓存,则可以使用flush() 函数。

如下代码t.php:

ignore_user_abort(TRUE);
set_time_limit(50);
 
while (1) {
    echo $i++, "\r\n";    
    flush();
 
    $fp = fopen("data.txt", 'a');
    fwrite($fp, $i . " \r\n");
    fclose($fp);
 
    sleep(1);
}

在浏览器中执行这段代码,过了大概两秒后,关闭请求的页面,50秒后,你会发现在data.txt文件中写入了至少50个数。这表示我们的中断操作是无效的。
如果我们改一下,把第一句改为:ignore_user_abort(FALSE);,重复上面的操作,你会发现,只写入了极少的数字,这表示我们的中断操作有效了。
现在通过ignore_user_abort函数,我们实现了用户中断就马上停止程序的操作。这里有一个问题,即我们需要不停的flush,通过flush函数来更新连接状态,当状态为abort时,程序根据ignore_user_abort的设置来判断是否中断程序。除此之外,我们也可以使用直接获取连接状态来check连接状态,并对特定的状态作出处理,如下代码:

ignore_user_abort(FALSE);
set_time_limit(50);
 
while (1) {
 
    echo $i++, "\r\n";
    flush();
 
     if (connection_status() != CONNECTION_NORMAL) {
        break;
    }
 
    $fp = fopen("data.txt", 'a');
    fwrite($fp, $i . ":" . connection_status() . " \r\n");
    fclose($fp);
 
    sleep(1);
}

这里的connection_status函数的作用是获取连接的状态,当连接的状态非normal时,我们就中断循环,从而也达到了中断程序的操作。这个示例与前面的示例不同之处在于中断操作是由我们自己控制,而不是通过flush操作直接exit。如果在用户中断后还有一些其它的操作,这种方式会更合适一些。当然,这里的flush操作依旧不可少,我们还是需要通过这个函数做check操作。

ignore_user_abort函数和connection_status函数都实现了我们的目的,这两个函数的实现有没有关联?我们在ext/standard/basic_functions.c文件中找到这两个函数的实现如下:

/* {{{ proto int connection_aborted(void)
 
Returns true if client disconnected */
PHP_FUNCTION(connection_aborted)
{
    RETURN_LONG(PG(connection_status) & PHP_CONNECTION_ABORTED);
}
/* }}} */
 
/* {{{ proto int connection_status(void)
Returns the connection status bitfield */
PHP_FUNCTION(connection_status)
{
    RETURN_LONG(PG(connection_status));
}
/* }}} */
 
/* {{{ proto int ignore_user_abort([string value])
Set whether we want to ignore a user abort event or not */
PHP_FUNCTION(ignore_user_abort)
{
    char *arg = NULL;
    int arg_len = 0;
    int old_setting;
 
    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "|s", &arg, &arg_len) == FAILURE) {
        return;
    }
 
    old_setting = PG(ignore_user_abort);
 
    if (arg) {
        zend_alter_ini_entry_ex("ignore_user_abort", sizeof("ignore_user_abort"), arg, arg_len, PHP_INI_USER,     PHP_INI_STAGE_RUNTIME, 0 TSRMLS_CC);
    }
 
    RETURN_LONG(old_setting);
}
/* }}} */

connection_status函数直接返回PG(connection_status)的值,

ignore_user_abort函数重新设置PG(ignore_user_abort)的值,

不管是因为缓存满自动调用或通过flush函数调用的flush操作,其最终都会根据连接状态判断是否执行php_handle_aborted_connection函数,如果是abort状态,则执行。

其代码如下:

/* {{{ php_handle_aborted_connection
*/
PHPAPI void php_handle_aborted_connection(void)
{
    TSRMLS_FETCH();
 
    PG(connection_status) = PHP_CONNECTION_ABORTED;
    php_output_set_status(0 TSRMLS_CC);
 
    if (!PG(ignore_user_abort)) {
        zend_bailout();
    }
}
/* }}} */

在PG(ignore_user_abort)为假时,即不忽略用户的中断行为时,如果调用了此函数,则使用zend_bailout函数跳出程序直接exit。

在默认情况下ignore_user_abort为0,即不忽略用户的中断行为。

如果你是ubuntu的默认apache环境下,可能上面的代码会无效。这是由于此环境下的apache开启了zip,在没有达到预定的大小时,服务器不会与客户端通信,从而也就无法获取客户端的状态,即使使用了flush函数也是一样。

PHP中计算字符串相似度的函数

上次reeze提到similar_text函数,这个真心没用过。
在手册上查找其说明如下:
similar_text — 计算两个字符串的相似度
int similar_text ( string $first , string $second [, float &$percent ] )
$first 必需。规定要比较的第一个字符串。
$second 必需。规定要比较的第二个字符串。
$percent 可选。规定供存储百分比相似度的变量名。

两个字符串的相似程度计算依据 Oliver [1993] 的描述进行。注意该实现没有使用 Oliver 虚拟码中的堆栈,但是却进行了递归调用,这个做法可能会导致整个过程变慢或变快。也请注意,该算法的复杂度是 O(N**3),N 是最长字符串的长度。

比如我们想找字符串abcdefg和字符串aeg的相似度:

$first = "abcdefg";
$second = "aeg";
 
echo similar_text($first, $second);

结果输出3.如果想以百分比显示,则可使用它的第三个参数,如下:

$first = "abcdefg";
$second = "aeg";
 
similar_text($first, $second, $percent);
echo $percent;

这里的相似度的算法是什么呢?本来是想看看Oliver[1993]对于这个算法的具体描述,各种google后,只找到这是从Ian Oliver1993年出版的书《Programming classics: implementing the world’s best algorithms》中记载,没有找到这本书的电子版。

直接代码,在string.c文件中我们找到了similar_text的实现PHP_FUNCTION(similar_text),其最终调用php_similar_cha获取两个字符串的相似度,如下代码:

static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
{
    int sum;
    int pos1, pos2, max;
 
    php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
    if ((sum = max)) {
        if (pos1 && pos2) {
            sum += php_similar_char(txt1, pos1, txt2, pos2);
        }
        if ((pos1 + max < len1) && (pos2 + max < len2)) { 
             sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max, 
                                               txt2 + pos2 + max, len2 - pos2 - max);
        }
    }
 
    return sum;
}

首先我们看php_similar_str函数的作用,从函数名和参数名我们可以大致猜测它的作用是求两个字符串的相似子串,具体代码如下:

static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
{
    char *p, *q; 
    char *end1 = (char *) txt1 + len1;
    char *end2 = (char *) txt2 + len2;
    int l;
 
    *max = 0;
    for (p = (char *) txt1; p < end1; p++) {
        for (q = (char *) txt2; q < end2; q++) {
            for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++); //我是分号
            if (l > *max) {
                *max = l;
                *pos1 = p - txt1;
                *pos2 = q - txt2;
            }
        }
    }
}

真心很直白的三重循环,求两个字符串的最大相似子串的长度,以及这两个子串相等的开始位置。

在了解了php_similar_str的作用后,回到php_similar_char函数。这是一个很直白的二分算法。以当前两个字符串的最大相似子串的位置为分隔,向两边二分查找相似子串,最终得到所有的相似子串长度的总和,这也就是我们这个函数的相似度算法:从最长子串开始,依次统计所有的子串长度。

那么这里的百分比是如何计算的呢?

在PHP_FUNCTION(similar_text)的函数体中,如下代码:

sim = php_similar_char(t1, t1_len, t2, t2_len);
 
if (ac > 2) {
    Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
}

sim是相似度的值,百分比是直接 sim * 200 / 两个字符串的长度。

关于那本书:

名称 Programming classics: implementing the world’s best algorithms
作者 Ian Oliver
出版商 Prentice Hall, 1993
出处: 密歇根大学
数字化处理时间 2007年11月15日
ISBN 0131004131, 9780131004139
页数 386 页
这里也许可以下载到

http://filecom.net/8EMrrcoyc8/

http://ebooks-files.org/download/programming-classics-implementing-the-worlds-best-algorithms.html

PHP源码阅读笔记十三:array_change_key_case,array_chunk

PHP源码阅读笔记十三:array_change_key_case,array_chunk
array_change_key_case

(PHP 4 >= 4.2.0, PHP 5)
array_change_key_case — 返回字符串键名全为小写或大写的数组
说明

array array_change_key_case ( array input [, int case] )

array_change_key_case() 将 input 数组中的所有键名改为全小写或大写。改变是根据后一个选项 case 参数来进行的。可以在这里用两个常量,CASE_UPPER 和 CASE_LOWER。默认值是 CASE_LOWER。本函数不改变数字索引。
看到这个函数,觉得应该是遍历数组所在的hash table,然后将其对应的key值转换成大写或小写(如果是字符串弄的key值)
看完后有一些不同,程序是将每个数组元素的引用都有加一

array_chunk
(PHP 4 >= 4.2.0, PHP 5)
array_chunk — 将一个数组分割成多个
说明

array array_chunk ( array input, int size [, bool preserve_keys] )

array_chunk() 将一个数组分割成多个数组,其中每个数组的单元数目由 size 决定。最后一个数组的单元数目可能会少几个。得到的数组是一个多维数组中的单元,其索引从零开始。
将可选参数 preserve_keys 设为 TRUE,可以使 PHP 保留输入数组中原来的键名。如果你指定了 FALSE,那每个结果数组将用从零开始的新数字索引。默认值是 FALSE。

程序实现说明:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
array_init(return_value);    //    初始化返回值 数组
zend_hash_internal_pointer_reset_ex(Z_ARRVAL_P(input), &pos);
while (zend_hash_get_current_data_ex(Z_ARRVAL_P(input), (void**)&entry, &pos) == SUCCESS) {    //    遍历HASH TABLE
/* 如果不存在,则创建并初始化chunk */
if (!chunk) {
MAKE_STD_ZVAL(chunk);
array_init(chunk);
}
/* 给数组元素的引用加一,相当于 *entry->refcount++; */
zval_add_ref(entry);
if (preserve_keys) {    //    保留键值
key_type = zend_hash_get_current_key_ex(Z_ARRVAL_P(input), &str_key,
&str_key_len, &num_key, 0, &pos);    //    取元素的key值类型,此值是要所元素的nKeyLength属性判断
 
if (key_type == HASH_KEY_IS_STRING) {    //    字符串类型
add_assoc_zval_ex(chunk, str_key, str_key_len, *entry);
} else {
add_index_zval(chunk, num_key, *entry);
}
} else {
add_next_index_zval(chunk, *entry);    //    给返回的子数组添加元素
}
 
if (!(++current % size)) {    //    如果达到分割的界限,则将分割出来创建的子数组添加到返回数组中,并将子数组置为NULl
add_next_index_zval(return_value, chunk);
chunk = NULL;
}
zend_hash_move_forward_ex(Z_ARRVAL_P(input), &pos);    //    下一个元素
}
if (chunk) {
add_next_index_zval(return_value, chunk);    //    剩余的元素
}