分类目录归档：PHP

PHP源码，PHP扩展，PHP程序

如何在用户中断时停止程序的运行

当我们以WEB的方式运行PHP脚本时，默认情况下，即使你关闭当前页面，程序也会继续执行，直接程序结束或超时。如果我们想在用户关闭页面或点击了停止页面运行时就中断程序，我们需要做些什么呢？上周和小毅同学讨论了这个问题，从而也引出了今天我们这篇文章。

我们知道HTTP协议是基于TCP/IP协议，对于一个PHP页面的请求就是一个HTTP请求（假设我们是Apache服务器），从而会创建TCP连接，当用户中断请求时，会给服务器一个abort状态。这个abort状态就是今天我们要讲的关键点。

在PHP中有一个函数与abort状态有关：ignore_user_abort函数
ignore_user_abort() 函数设置与客户机断开时是否会终止脚本的执行。它返回 user-abort 之前设置的布尔值。它的参数可选。如果设置为 true，则忽略与用户的断开，如果设置为 false，会导致脚本停止运行。

PHP 不会检测到用户是否已断开连接，直到尝试向客户机发送信息为止。因此如果我们只是使用echo语句，可能无法如实的看到abort的效果，因为PHP在输出时会有一个缓存，如果要刷新缓存，则可以使用flush() 函数。

如下代码t.php：

ignore_user_abort(TRUE);
set_time_limit(50);
 
while (1) {
    echo $i++, "\r\n";    
    flush();
 
    $fp = fopen("data.txt", 'a');
    fwrite($fp, $i . " \r\n");
    fclose($fp);
 
    sleep(1);
}

在浏览器中执行这段代码，过了大概两秒后，关闭请求的页面，50秒后，你会发现在data.txt文件中写入了至少50个数。这表示我们的中断操作是无效的。
如果我们改一下，把第一句改为：ignore_user_abort(FALSE);，重复上面的操作，你会发现，只写入了极少的数字，这表示我们的中断操作有效了。
现在通过ignore_user_abort函数，我们实现了用户中断就马上停止程序的操作。这里有一个问题，即我们需要不停的flush，通过flush函数来更新连接状态，当状态为abort时，程序根据ignore_user_abort的设置来判断是否中断程序。除此之外，我们也可以使用直接获取连接状态来check连接状态，并对特定的状态作出处理，如下代码：

ignore_user_abort(FALSE);
set_time_limit(50);
 
while (1) {
 
    echo $i++, "\r\n";
    flush();
 
     if (connection_status() != CONNECTION_NORMAL) {
        break;
    }
 
    $fp = fopen("data.txt", 'a');
    fwrite($fp, $i . ":" . connection_status() . " \r\n");
    fclose($fp);
 
    sleep(1);
}

这里的connection_status函数的作用是获取连接的状态，当连接的状态非normal时，我们就中断循环，从而也达到了中断程序的操作。这个示例与前面的示例不同之处在于中断操作是由我们自己控制，而不是通过flush操作直接exit。如果在用户中断后还有一些其它的操作，这种方式会更合适一些。当然，这里的flush操作依旧不可少，我们还是需要通过这个函数做check操作。

ignore_user_abort函数和connection_status函数都实现了我们的目的，这两个函数的实现有没有关联？我们在ext/standard/basic_functions.c文件中找到这两个函数的实现如下：

/* {{{ proto int connection_aborted(void)
 
Returns true if client disconnected */
PHP_FUNCTION(connection_aborted)
{
    RETURN_LONG(PG(connection_status) & PHP_CONNECTION_ABORTED);
}
/* }}} */
 
/* {{{ proto int connection_status(void)
Returns the connection status bitfield */
PHP_FUNCTION(connection_status)
{
    RETURN_LONG(PG(connection_status));
}
/* }}} */
 
/* {{{ proto int ignore_user_abort([string value])
Set whether we want to ignore a user abort event or not */
PHP_FUNCTION(ignore_user_abort)
{
    char *arg = NULL;
    int arg_len = 0;
    int old_setting;
 
    if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "|s", &arg, &arg_len) == FAILURE) {
        return;
    }
 
    old_setting = PG(ignore_user_abort);
 
    if (arg) {
        zend_alter_ini_entry_ex("ignore_user_abort", sizeof("ignore_user_abort"), arg, arg_len, PHP_INI_USER,     PHP_INI_STAGE_RUNTIME, 0 TSRMLS_CC);
    }
 
    RETURN_LONG(old_setting);
}
/* }}} */

connection_status函数直接返回PG(connection_status)的值，

ignore_user_abort函数重新设置PG(ignore_user_abort)的值，

不管是因为缓存满自动调用或通过flush函数调用的flush操作，其最终都会根据连接状态判断是否执行php_handle_aborted_connection函数，如果是abort状态，则执行。

其代码如下：

/* {{{ php_handle_aborted_connection
*/
PHPAPI void php_handle_aborted_connection(void)
{
    TSRMLS_FETCH();
 
    PG(connection_status) = PHP_CONNECTION_ABORTED;
    php_output_set_status(0 TSRMLS_CC);
 
    if (!PG(ignore_user_abort)) {
        zend_bailout();
    }
}
/* }}} */

在PG(ignore_user_abort)为假时，即不忽略用户的中断行为时，如果调用了此函数，则使用zend_bailout函数跳出程序直接exit。

在默认情况下ignore_user_abort为0，即不忽略用户的中断行为。

如果你是ubuntu的默认apache环境下，可能上面的代码会无效。这是由于此环境下的apache开启了zip，在没有达到预定的大小时，服务器不会与客户端通信，从而也就无法获取客户端的状态，即使使用了flush函数也是一样。

PHP中计算字符串相似度的函数

上次reeze提到similar_text函数，这个真心没用过。
在手册上查找其说明如下：
similar_text — 计算两个字符串的相似度
int similar_text ( string $first , string $second [, float &$percent ] )
$first 必需。规定要比较的第一个字符串。
$second 必需。规定要比较的第二个字符串。
$percent 可选。规定供存储百分比相似度的变量名。

两个字符串的相似程度计算依据 Oliver [1993] 的描述进行。注意该实现没有使用 Oliver 虚拟码中的堆栈，但是却进行了递归调用，这个做法可能会导致整个过程变慢或变快。也请注意，该算法的复杂度是 O(N**3)，N 是最长字符串的长度。

比如我们想找字符串abcdefg和字符串aeg的相似度：

$first = "abcdefg";
$second = "aeg";
 
echo similar_text($first, $second);

结果输出3.如果想以百分比显示，则可使用它的第三个参数,如下：

$first = "abcdefg";
$second = "aeg";
 
similar_text($first, $second, $percent);
echo $percent;

这里的相似度的算法是什么呢？本来是想看看Oliver[1993]对于这个算法的具体描述，各种google后，只找到这是从Ian Oliver1993年出版的书《Programming classics: implementing the world’s best algorithms》中记载，没有找到这本书的电子版。

直接代码，在string.c文件中我们找到了similar_text的实现PHP_FUNCTION(similar_text)，其最终调用php_similar_cha获取两个字符串的相似度，如下代码：

static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
{
    int sum;
    int pos1, pos2, max;
 
    php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
    if ((sum = max)) {
        if (pos1 && pos2) {
            sum += php_similar_char(txt1, pos1, txt2, pos2);
        }
        if ((pos1 + max < len1) && (pos2 + max < len2)) { 
             sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max, 
                                               txt2 + pos2 + max, len2 - pos2 - max);
        }
    }
 
    return sum;
}

首先我们看php_similar_str函数的作用，从函数名和参数名我们可以大致猜测它的作用是求两个字符串的相似子串，具体代码如下：

static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
{
    char *p, *q; 
    char *end1 = (char *) txt1 + len1;
    char *end2 = (char *) txt2 + len2;
    int l;
 
    *max = 0;
    for (p = (char *) txt1; p < end1; p++) {
        for (q = (char *) txt2; q < end2; q++) {
            for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++); //我是分号
            if (l > *max) {
                *max = l;
                *pos1 = p - txt1;
                *pos2 = q - txt2;
            }
        }
    }
}

真心很直白的三重循环，求两个字符串的最大相似子串的长度，以及这两个子串相等的开始位置。

在了解了php_similar_str的作用后，回到php_similar_char函数。这是一个很直白的二分算法。以当前两个字符串的最大相似子串的位置为分隔，向两边二分查找相似子串，最终得到所有的相似子串长度的总和，这也就是我们这个函数的相似度算法：从最长子串开始，依次统计所有的子串长度。

那么这里的百分比是如何计算的呢？

在PHP_FUNCTION(similar_text)的函数体中，如下代码：

sim = php_similar_char(t1, t1_len, t2, t2_len);
 
if (ac > 2) {
    Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
}

sim是相似度的值，百分比是直接 sim * 200 / 两个字符串的长度。

关于那本书：

名称 Programming classics: implementing the world’s best algorithms
作者 Ian Oliver
出版商 Prentice Hall, 1993
出处：密歇根大学
数字化处理时间 2007年11月15日
ISBN 0131004131, 9780131004139
页数 386 页
这里也许可以下载到

http://filecom.net/8EMrrcoyc8/

http://ebooks-files.org/download/programming-classics-implementing-the-worlds-best-algorithms.html

PHP执行过程中的数据

PHP脚本在内核中一般会经过词法解析，语法解析、编译生成中间代码，执行中间代码这样四个大的步骤。其中，第四个步骤，执行中间代码PHP内核默认情况下是通过zend/zend_vm_execute.h文件中的execute函数调用执行完成，对于所有的中间代码，默认实现是以按顺序执行，当遇到函数等情况时跳出去执行，执行完后再回到跳出的位置继续执行。

与过程相比，过程中的数据会更加重要，那么在执行过程中的核心数据结构有哪些呢？在Zend/zend_vm_execute.h文件中的execute函数实现中，zend_execute_data类型的execute_data变量贯穿整个中间代码的执行过程，其在调用时并没有直接使用execute_data，而是使用EX宏代替，其定义在Zend/zend_compile.h文件中，如下：

#define EX(element) execute_data.element

因此我们在execute函数或在opcode的实现函数中会看到EX(fbc)，EX(object)等宏调用，它们是调用函数局部变量execute_data的元素：execute_data.fbc和execute_data.object。 execute_data不仅仅只有fbc、object等元素，它包含了执行过程中的中间代码，上一次执行的函数，函数执行的当前作用域，类等信息。其结构如下：

typedef struct _zend_execute_data zend_execute_data;
 
struct _zend_execute_data {
    struct _zend_op *opline;
    zend_function_state function_state;
    zend_function *fbc; /* Function Being Called */
    zend_class_entry *called_scope; 
    zend_op_array *op_array;  /* 当前执行的中间代码 */
    zval *object;
    union _temp_variable *Ts;
    zval ***CVs;
    HashTable *symbol_table; /* 符号表 */
    struct _zend_execute_data *prev_execute_data;   /* 前一条中间代码执行的环境*/
    zval *old_error_reporting;
    zend_bool nested;
    zval **original_return_value; /* */
    zend_class_entry *current_scope;
    zend_class_entry *current_called_scope;
    zval *current_this;
    zval *current_object;
    struct _zend_op *call_opline;
};

在前面的中间代码执行过程中有介绍：中间代码的执行最终是通过EX(opline)->handler(execute_data TSRMLS_CC)来调用最终的中间代码程序。在这里会将主管中间代码执行的execute函数中初始化好的execture_data传递给执行程序。

zend_execute_data结构体部分字段说明如下：

opline字段：struct _zend_op类型，当前执行的中间代码
op_array字段： zend_op_array类型，当前执行的中间代码队列
fbc字段：zend_function类型，已调用的函数
called_scope字段：zend_class_entry类型，当前调用对象作用域，常用操作是EX(called_scope) = Z_OBJCE_P(EX(object))，即将刚刚调用的对象赋值给它。
symbol_table字段：符号表，存放局部变量，这在前面的<< 第六节变量的生命周期 » 变量的作用域 >>有过说明。在execute_data初始时，EX(symbol_table) = EG(active_symbol_table);
prev_execute_data字段：前一条中间代码执行的中间数据，用于函数调用等操作的运行环境恢复。
在execute函数中初始化时，会调用zend_vm_stack_alloc函数分配内存。这是一个栈的分配操作，对于一段PHP代码的上下文环境，它存在于这样一个分配的空间作放置中间数据用，并作为栈顶元素。当有其它上下文环境的切换（如函数调用），此时会有一个新的元素生成，上一个上下文环境会被新的元素压下去，新的上下文环境所在的元素作为栈顶元素存在。

在zend_vm_stack_alloc函数中我们可以看到一些PHP内核中的优化。比如在分配时，这里会存在一个最小分配单元，在zend_vm_stack_extend函数中，分配的最小单位是ZEND_VM_STACK_PAGE_SIZE((64 * 1024) – 64)，这样可以在一定范围内控制内存碎片的大小。又比如判断栈元素是否为空，在PHP5.3.1之前版本(如5.3.0)是通过第四个元素elelments与top的位置比较来实现，而从PHP5.3.1版本开始，struct _zend_vm_stack结构就没有第四个元素，直接通过在当前地址上增加整个结构体的长度与top的地址比较实现。两个版本结构代码及比较代码如下：

// PHP5.3.0
struct _zend_vm_stack {
    void **top;
    void **end;
    zend_vm_stack prev;
    void *elements[1];
};
 
if (UNEXPECTED(EG(argument_stack)->top == EG(argument_stack)->elements)) {
}
 
//  PHP5.3.1
struct _zend_vm_stack {
    void **top;
    void **end;
    zend_vm_stack prev;
};
 
if (UNEXPECTED(EG(argument_stack)->top == ZEND_VM_STACK_ELEMETS(EG(argument_stack)))) {
}
 
#define ZEND_VM_STACK_ELEMETS(stack) \
((void**)(((char*)(stack)) + ZEND_MM_ALIGNED_SIZE(sizeof(struct _zend_vm_stack))))

当一个上下文环境结束其生命周期后，如果回收这段内存呢？还是以函数为例，我们在前面的函数章节中<< 函数的返回 >>中我们知道每个函数都会有一个函数返回，即使没有在函数的实现中定义，也会默认返回一个NULL。以ZEND_RETURN_SPEC_CONST_HANDLER实现为例，在函数的返回最后都会调用一个函数zend_leave_helper_SPEC。

在zend_leave_helper_SPEC函数中，对于执行过程中的函数处理有几个关键点：

上下文环境的切换：这里的关键代码是：EG(current_execute_data) = EX(prev_execute_data);。 EX(prev_execute_data)用于保留当前函数调用前的上下文环境，从而达到恢复和切换的目的。
当前上下文环境所占用内存空间的释放：这里的关键代码是：zend_vm_stack_free(execute_data TSRMLS_CC);。 zend_vm_stack_free函数的实现存在于Zend/zend_execute.h文件，它的作用就是释放栈元素所占用的内存。
返回到之前的中间代码执行路径中：这里的关键代码是：ZEND_VM_LEAVE();。我们从zend_vm_execute.h文件的开始部分就知道ZEND_VM_LEAVE宏的效果是返回3。在执行中间代码的while循环当中，当ret=3时，这个执行过程就会恢复之前上下文环境，继续执行。

更多内容请请移步TIPI项目

潘锦的空间

SaaS SaaS架构团队管理技术管理技术架构 PHP 内核扩展项目管理

分类目录归档：PHP

如何在用户中断时停止程序的运行

PHP中计算字符串相似度的函数

PHP执行过程中的数据