标签归档:session

关于Cookie

Cookie是什么

在wiki中Cookie的定义为: Cookie(复数形态Cookies),中文名称为小型文本文件或小甜饼(貌似这只是一个中文翻译,平时还是直接读的英文),指某些网站为了辨别用户身份而储存在用户本地终端上的数据。

Cookie是服务器在本地机器上存储的小段文本并随每一个请求发送至同一个服务器,是客户端与服务器保持会话的主要手段,其内容总是保存在客户端中,按在客户端中的存储位置,可分为内存Cookie和硬盘Cookie。内存Cookie由浏览器维护,保存在内存中,浏览器关闭后就消失了,其存在时间是短暂的。硬盘Cookie保存在硬盘里,有一个过期时间,除非用户手工清理或到了过期时间,硬盘Cookie不会被删除,其存在时间是长期的。所以,按存在时间,可分为非持久Cookie和持久Cookie。

Cookie被浏览器默认发送到服务器,通过HTTP协议,请求头中以Cookie字段存储客户端的Cookie值,应答头中以Set-Cookie字段应答,当服务器需要有多个cookie字段写到客户端,则在应答头中将包含多个Set-Cookie字段。 Cookie的使用非常简单,以PHP为例,在脚本中使用setcookie函数设置对应的key,value值,通过全局变量$_COOKIE直接读取客户端发送过来的Cookie值。

Cookie简单,但是存在一些问题:

  1. 安全,明文传输内容,容易被篡改。和HTTP一样,只能说看如何使用了,看你存储的是什么了
  2. 增加网络流量,加重整个网络的负载。默认浏览器在发送请求时会将本地Cookie的内容通过Cookie字段传输到服务器。所以经常我们会独立静态图片或资源的域名,使其Cookie为空。
  3. 大小限制。各浏览器对于单个cookie的大小限制为4096个字节左右,超过大小的内容将被忽略。每个域名下可以存储有30~50个cookie,不同的浏览器,不同的版本这些值不同。为什么会有大小限制,因为cookie会默认发送,当cookie太大时,可能会导致服务器响应出错等。

Cookie的历史

1993年3月,这样一个春光明媚,面朝大海,春暖花开的时节,现在的网景公司前雇员,当时的NB的网景公司员工Lou Montulli灵光一闪,Cookie华丽丽的出生了。 Cookie第一次被正式定义是在RFC2109,嗯,这是1997年2月的一天,也许那时还有些冷。在RFC中,Cookie被称为HTTP State Management Mechanism(HTTP 状态管理机制)。  RFC2109在2000年10月被RFC2965过时,而在2011年4月,最新的刚刚火热出炉的RFC6265将RFC2965过时,可谓是长江后浪推前浪,前浪死在沙滩上。另外,RFC2964记录了使用Cookie的最佳实践。

换句话说:Cookie经过了Netscape标准、RFC2109、RFC2965和RFC26265四个标准:

  • Netscape标准:Netscape是最原始的Cookies规范,同时也是RFC2109的基础。尽管如此,还是在很多重要的方面与RFC2109不同,可能需要特定服务器才可以兼容。
  • RFC2109: RFC2109是W3C组织第一次推出的官方Cookies标准。理论上,所有使用版本Cookies的服务端都应该使用此标准。HttpClient已经将此标准设定为默认。遗憾的是,许多服务端不正确的实现了标准或者仍然使用Netscape标准。所有有时感到此标准太多于严格。
  • RFC2965:RFC2965定义了版本2并且尝试去弥补在版本1中Cookie的RFC2109标准的缺点。RFC2965是,并规定RFC2965最终取代RFC2109. 发送RFC2965标准Cookies的服务端,将会使用Set-Cookie2 header添加到Set-Cookie Header信心中,RFC2965 Cookies是区分端口的。
  • RFC6265:RFC6265主要是干掉了RFC2965,在9.3和9.4小节。另外,增加了HttpOnly字段,指定HttpOnly的Cookie不能被客户端读写,仅供HTTP传输使用,或者就服务器可以读写,浏览器作为客户端需要确保其不能读写。

Cookie和Seesion

Cookie和Session都用来保存状态信息,做会话处理,都是保存客户端状态的机制,它们都是为了解决HTTP无状态的问题而所做的努力。 Session存储在服务器,一般通过Cookie来存储其生成的唯一ID(seesionID),当Cookie被禁用时,通常用URL回写的机制来替换Cookie。

Cookie和Session有一些不同:

  1. 存储位置的不同:Cookie将状态保存在客户端,Session将状态保存在服务器端;
  2. 与HTTP协议的关系不同:Cookie需要通过网络传输,依赖于HTTP协议,Session并没有在HTTP的协议中定 义;
  3. 可用性不同:相对于Cookie,Session在客户端禁用Cookie后还可以通过URL回写机制实现Session会话机制。
  4. 安全性不同:因为存储的位置不同,Cookie更容易被篡改,存储在服务器的Session相对来说则安全一些,客户不能随意读取这些内容,除非获到其它用户的了sessionID,这也是XSS攻击会关注的地方。

同源策略

说到WEB的安全问题就不得不提同源策略。浏览器的同源策略是 Web 安全的基础,所有的主流浏览器都会有相应的实现。同源策略中“源”是一个包含主机名、协议和端口号的三元组,则同源表示:同协议,同域名和同端口,三者都相同。同源策略的出发点是它认为自任何站点装载的信赖内容是不安全的。在同源策略的限制下,浏览器只允许网页中的脚本(如 JavaScript 或 VBScript)访问与之同源的 HTTP 请求和 Cookie。对于Cookie来说,同源策略就限制了网站间的Cookie读写操作。即使在服务器使用setcookie(PHP)函数对其它域名执行Cookie写操作也是无效的。 setcookie的域名是用来指向当前域名或根域名之类的用的,设置Cookie时,如果不指定domain的值,默认就是本域。

参考资料:

  1. http://wiki.apache.org/HttpComponents/ReferenceMaterials
  2. http://www.cnblogs.com/shepherd2012/archive/2012/08/03/2621797.html
  3. http://zh.wikipedia.org/wiki/Cookie
  4. http://curl.haxx.se/rfc/cookie_spec.html
  5. http://tools.ietf.org/html/rfc6265

PHP源码阅读笔记三十七:PHP中的SESSION实现

PHP源码阅读笔记三十七:PHP中的SESSION实现
源码版本:php5.3.1
环境:VS2008
本文包括PHP中SESSION用到的COOKIE管理,缓存限制,序列化
【COOKIE管理】
在浏览器未关闭cookie的情况下,我们可以看到当有session id生成并返回给发送请求的客户端时,会有一些cookie信息写入到浏览器。其实现代码在session.c 1191行开始。

1191
1192
1193
1194
1195
1196
1197
1198
1199
1200
1201
1202
1203
1204
1205
1206
1207
1208
1209
1210
1211
1212
1213
1214
1215
1216
1217
1218
1219
1220
1221
1222
1223
1224
1225
1226
1227
1228
1229
1230
1231
1232
1233
1234
1235
1236
1237
1238
1239
1240
1241
1242
1243
1244
1245
1246
1247
1248
1249
1250
1251
1252
1253
1254
1255
1256
1257
1258
1259
1260
1261
1262
1263
1264
1265
1266
1267
1268
1269
1270
1271
/* *********************
   * Cookie Management *
   ********************* */
 
#define COOKIE_SET_COOKIE "Set-Cookie: "
#define COOKIE_EXPIRES	"; expires="
#define COOKIE_PATH	"; path="
#define COOKIE_DOMAIN	"; domain="
#define COOKIE_SECURE	"; secure"
#define COOKIE_HTTPONLY	"; HttpOnly"
 
static void php_session_send_cookie(TSRMLS_D) /* {{{ */
{
	smart_str ncookie = {0};
	char *date_fmt = NULL;
	char *e_session_name, *e_id;
 
	if (SG(headers_sent)) {
		char *output_start_filename = php_get_output_start_filename(TSRMLS_C);
		int output_start_lineno = php_get_output_start_lineno(TSRMLS_C);
 
		if (output_start_filename) {
			php_error_docref(NULL TSRMLS_CC, E_WARNING, "Cannot send session cookie - headers already sent by (output started at %s:%d)", output_start_filename, output_start_lineno);
		} else {
			php_error_docref(NULL TSRMLS_CC, E_WARNING, "Cannot send session cookie - headers already sent");
		}
		return;
	}
 
	/* URL encode session_name and id because they might be user supplied */
	e_session_name = php_url_encode(PS(session_name), strlen(PS(session_name)), NULL);
	e_id = php_url_encode(PS(id), strlen(PS(id)), NULL);
 
	smart_str_appends(&ncookie, COOKIE_SET_COOKIE);
	smart_str_appends(&ncookie, e_session_name);
	smart_str_appendc(&ncookie, '=');
	smart_str_appends(&ncookie, e_id);
 
	efree(e_session_name);
	efree(e_id);
 
	if (PS(cookie_lifetime) > 0) {
		struct timeval tv;
		time_t t;
 
		gettimeofday(&tv, NULL);
		t = tv.tv_sec + PS(cookie_lifetime);
 
		if (t > 0) {
			date_fmt = php_format_date("D, d-M-Y H:i:s T", sizeof("D, d-M-Y H:i:s T")-1, t, 0 TSRMLS_CC);
			smart_str_appends(&ncookie, COOKIE_EXPIRES);
			smart_str_appends(&ncookie, date_fmt);
			efree(date_fmt);
		}
	}
 
	if (PS(cookie_path)[0]) {
		smart_str_appends(&ncookie, COOKIE_PATH);
		smart_str_appends(&ncookie, PS(cookie_path));
	}
 
	if (PS(cookie_domain)[0]) {
		smart_str_appends(&ncookie, COOKIE_DOMAIN);
		smart_str_appends(&ncookie, PS(cookie_domain));
	}
 
	if (PS(cookie_secure)) {
		smart_str_appends(&ncookie, COOKIE_SECURE);
	}
 
	if (PS(cookie_httponly)) {
		smart_str_appends(&ncookie, COOKIE_HTTPONLY);
	}
 
	smart_str_0(&ncookie);
 
	/*	'replace' must be 0 here, else a previous Set-Cookie
		header, probably sent with setcookie() will be replaced! */
	sapi_add_header_ex(ncookie.c, ncookie.len, 0, 0 TSRMLS_CC);
}
/* }}} */

第1195~1200行 定义常量宏,这些定义的内容我们可以通过查看http协议的应答头中可以看到,Set-Cookie是字段名,其余的为此字段中可以包含的变量,我们可以通过与PHP自带的setcookie操作函数的参数比对进行学习,此函数的定义如下:

1
bool setcookie ( string $name [, string $value [, int $expire = 0 [, string $path [, string $domain [, bool $secure = false [, bool $httponly = false ]]]]]] )

相关参数说明请参考:http://docs.php.net/manual/zh/function.setcookie.php
第1208~1218行 关于是否已经发送了cookie应答的情况处理
第1221~1222行 使用PHP中的函数urlencode的C程序实现,以防止人为添加的session name和session id出现混乱
第1224~1227行 将Set-Cookie字段名,session name和session id的值添加到将要发送的cookie字符串中。
第1232~1245行 cookie的过期时间处理
第1247~1250行 cookie的路径处理
第1252~1255行 cookie的域名处理
第1257~1259行 cookie是否仅仅通过安全连接(https)发送cookie。
第1261~1263行 cookie是否在cookie中添加httpOnly标志(仅允许HTTP协议访问)的处理
最后通过sapi_add_header_ex函数将生成的字符串添加到应答头中。
【缓存限制器】
缓存限制器的结构定义:

1041
1042
1043
1044
typedef struct {
	char *name;	
	void (*func)(TSRMLS_D);
} php_session_cache_limiter_t;

如上所示代码,一个限制器包括一个名称和一个处理函数。
缓存限制器的实现原理
从其代码实现看,所谓的缓存限制器是通过返回不同的http请求的缓存控制字段内容达到缓存控制的目的。
默认情况下,session.cache_limiter = nocache
即使用CACHE_LIMITER_FUNC(nocache)
其中关于缓存控制器总共有4种方案,分别为:

1154
1155
1156
1157
1158
1159
1160
static php_session_cache_limiter_t php_session_cache_limiters[] = {
	CACHE_LIMITER_ENTRY(public)
	CACHE_LIMITER_ENTRY(private)
	CACHE_LIMITER_ENTRY(private_no_expire)
	CACHE_LIMITER_ENTRY(nocache)
	{0}
};

其调用代码在session.c1180 行,如下:

1180
1181
1182
1183
1184
1185
	for (lim = php_session_cache_limiters; lim->name; lim++) {
		if (!strcasecmp(lim->name, PS(cache_limiter))) {
			lim->func(TSRMLS_C);
			return 0;
		}
	}

以上代码为一个遍历缓存控制器所在数组,并判断其方案名与PS(cache_limiter)是否一致,如果一致则执行此缓存控制,并返回。

【序列化实现】
PHP的session存放的都是序列化后的数据。
默认情况下使用session.serialize_handler = php
在源码中默认给出了两种序列化的实现。其最多可以有11种序列化的方法,相关代码如下:

982
983
984
985
986
987
988
#define MAX_SERIALIZERS 10
#define PREDEFINED_SERIALIZERS 2
 
static ps_serializer ps_serializers[MAX_SERIALIZERS + 1] = {
	PS_SERIALIZER_ENTRY(php),
	PS_SERIALIZER_ENTRY(php_binary)
};

ps_serializer结构定义如下 :

161
162
163
164
165
166
167
168
#define PS_SERIALIZER_ENCODE_ARGS char **newstr, int *newlen TSRMLS_DC
#define PS_SERIALIZER_DECODE_ARGS const char *val, int vallen TSRMLS_DC
 
typedef struct ps_serializer_struct {
	const char *name;
	int (*encode)(PS_SERIALIZER_ENCODE_ARGS);
	int (*decode)(PS_SERIALIZER_DECODE_ARGS);
} ps_serializer;

序列化通过调用php_session_register_serializer函数实现序列化的注册过程
php_session_register_serializer函数遍历ps_serializers数组,并判断数组元素的name属性是否为NULL,如果为NULL,则将新的序列化函数添加到ps_serializers数组。

【其它维度的文章】
PHP5 Session 浅析I
PHP5 Session 浅析II
作者从另外一个维度分析了session的一些原理,值得学习一下。

PHP源码阅读笔记三十六:PHP中的SESSION实现之常规操作

PHP源码阅读笔记三十六:PHP中的SESSION实现之常规操作
源码版本:php5.3.1
环境:VS2008
本笔记包括PHP中SESSION用到的全局变量,session_id的生成算法,初始化及session的清除操作
【全局变量】
/ext/session/php_session.h 文件

98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
typedef struct _php_ps_globals {
	char *save_path;	//	保存路径 
	char *session_name;	//	session名称 默认为PHPSESSID 这个在cookie中会看到
	char *id;		//	session ID
	char *extern_referer_chk;	//	请求头中的"Referer"字段不包含此处指定的字符串则会话ID将被视为无效
	char *entropy_file;	// 指定这里建立 session id
	char *cache_limiter;	// 可以设为{nocache,private,public},以决定 HTTP 的缓存问题
	long entropy_length;	//	 从文件中读取多少字节 
	long cookie_lifetime;	//	为按秒记的cookie的保存时间
	char *cookie_path;	//	cookie的有效路径
	char *cookie_domain;	//	cookie的有效域 
	zend_bool  cookie_secure;	//	是否仅仅通过安全连接(https)发送cookie。
	zend_bool  cookie_httponly;	//是否在cookie中添加httpOnly标志(仅允许HTTP协议访问)
	ps_module *mod;	//	session的处理方式
	void *mod_data;
	php_session_status session_status;	//	session的状态
	long gc_probability;	//	在每次 session 初始化的时候开始的可能性。 
	long gc_divisor;	// 收集概率计算公式:gc_probability/gc_divisor
	long gc_maxlifetime;	// 在这里数字所指的秒数后,保存的数据将被视为´碎片(garbage)´并由gc 进程清理掉。 
	int module_number;	//	存储方式编号
	long cache_expire;	//	过期时间,单位为分钟 
	union {
		zval *names[6];
		struct {
			zval *ps_open;
			zval *ps_close;
			zval *ps_read;
			zval *ps_write;
			zval *ps_destroy;
			zval *ps_gc;
		} name;
	} mod_user_names;	//	用户自定义函数 你懂的
	zend_bool bug_compat; /* Whether to behave like PHP 4.2 and earlier */
	zend_bool bug_compat_warn; /* Whether to warn about it */
	const struct ps_serializer_struct *serializer;	//	序列化处理函数
	zval *http_session_vars;	//	存放session变量
	zend_bool auto_start;	//	是否自动开始 默认为0
	zend_bool use_cookies;	//	是否使用cookies 
	zend_bool use_only_cookies;	//	是否仅仅使用cookie在客户端保存会话ID
	zend_bool use_trans_sid;	/* contains the INI value of whether to use trans-sid */
	zend_bool apply_trans_sid;	/* whether or not to enable trans-sid for the current request */
 
	long hash_func;	//	生成SID的散列算法。SHA-1的安全性更高一些
#if defined(HAVE_HASH_EXT) && !defined(COMPILE_DL_HASH)
	php_hash_ops *hash_ops;
#endif
	long hash_bits_per_character;	//指定在SID字符串中的每个字符内保存多少bit,
	int send_cookie;	//	是否发送cookie头
	int define_sid;		//	session常量id
	zend_bool invalid_session_id;	/* allows the driver to report about an invalid session id and request id regeneration */
} php_ps_globals;

【初始化】
在PHP_MINIT_FUNCTION方法中,注册全局变量_SESSION,将session_status设置为php_session_none,注册ini实体
[PHP_RINIT_FUNCTION方法]

2098
2099
2100
2101
2102
2103
2104
2105
2106
2107
2108
2109
2110
2111
2112
2113
2114
2115
2116
2117
2118
2119
2120
2121
2122
2123
2124
2125
2126
2127
2128
2129
2130
2131
2132
2133
 
static PHP_RINIT_FUNCTION(session) /* {{{ */
{
	php_rinit_session_globals(TSRMLS_C);
 
	if (PS(mod) == NULL) {
		char *value;
 
		value = zend_ini_string("session.save_handler", sizeof("session.save_handler"), 0);
		if (value) {
			PS(mod) = _php_find_ps_module(value TSRMLS_CC);
		}
	}
 
	if (PS(serializer) == NULL) {
		char *value;
 
		value = zend_ini_string("session.serialize_handler", sizeof("session.serialize_handler"), 0);
		if (value) {
			PS(serializer) = _php_find_ps_serializer(value TSRMLS_CC);
		}
	}
 
	if (PS(mod) == NULL || PS(serializer) == NULL) {
		/* current status is unusable */
		PS(session_status) = php_session_disabled;
		return SUCCESS;
	}
 
	if (PS(auto_start)) {
		php_session_start(TSRMLS_C);
	}
 
	return SUCCESS;
}
/* }}} */

第2011行 调用php_rinit_session_globals函数初始化一些变量,其代码吓:

79
80
81
82
83
84
85
86
87
88
/* Dispatched by RINIT and by php_session_destroy */
static inline void php_rinit_session_globals(TSRMLS_D) /* {{{ */
{
	PS(id) = NULL;
	PS(session_status) = php_session_none;
	PS(mod_data) = NULL;
	/* Do NOT init PS(mod_user_names) here! */
	PS(http_session_vars) = NULL;
}
/* }}} */

PHP_RINIT_FUNCTION第2102~2109行 如果PS(mod)存在,则跳过,否则根据session.save_handle初始化PS(mod);
第2111~2118行 如果PS(serializer)存在,则跳过,否则根据session.serialize_handler,通过_php_find_ps_serializer函数初始化PS(serializer);
第2120~2124行 处理session不可用状态
第2126~2129行 根据PS(auto_start)(即php.ini中的session.auto_start)来判断是否自动开启session

【session id的默认生成算法】
session.c 350行开始定义的php_session_create_id实现了session_id的默认生成算法
从其实现看,session id的内容和REMOTE_ADDR、当前时间和一个随机数有关
通过PS(hash_func)获取生成session id的函数,此默认为0,即MD5算法,以MD5为例,此时会初始化MD5算法(PHP_MD5Init),把REMOTE_ADDR及当前时间组成的字符串添加(PHP_MD5Update)到算法的加密内容中
然后,判断PS(entropy_length) (从文件中读取多少字节)是否大于0,如果大于0,则需要从PS(entropy_file) (指定建立 session id的文件)中读取PS(entropy_length)长的字符串,添加(PHP_MD5Update)到MD5算法的加密内容中
最后执行PHP_MD5Final操作,生成session id

【清除过期session】
在php.ini文件中对于session的配置项有三个是与过期session的清除有关的,它们是session.gc_probability、session.gc_divisor和session.gc_maxlifetime。其中session.gc_probability默认为1,session.gc_divisor默认为100,session.gc_maxlifetime默认为1440秒
如下所示代码在session.c 1469行,为php_session_start函数的部分实现。

1469
1470
1471
1472
1473
1474
1475
1476
1477
1478
1479
1480
1481
	if (PS(mod_data) && PS(gc_probability) > 0) {
		int nrdels = -1;
 
		nrand = (int) ((float) PS(gc_divisor) * php_combined_lcg(TSRMLS_C));
		if (nrand < PS(gc_probability)) {
			PS(mod)->s_gc(&PS(mod_data), PS(gc_maxlifetime), &nrdels TSRMLS_CC);
#ifdef SESSION_DEBUG
			if (nrdels != -1) {
				php_error_docref(NULL TSRMLS_CC, E_NOTICE, "purged %d expired session objects", nrdels);
			}
#endif
		}
	}

以上代码段在php_session_start函数中,表示每次启动session时都会执行,只是它会依据 PS(gc_probability)和 PS(gc_divisor)以及一个生成的随机数判断是否执行垃圾清除操作。默认其概率为1/100
php_combined_lcg会生成一个(0,1)的随机数
PS(mod)->s_gc是根据选择的存储方式调用其定义的垃圾收集方法
以files存储方式为例,PS_GC_FUNC(files)函数调用ps_files_cleanup_dir遍历指定的目录,查找文件名为”sess_”的文件(这点在mod_files.c的51行定义#define FILE_PREFIX “sess_”),通过判断当前时间与最后修改时间之差是否大于maxlifetime(即在php.ini中配置的session.gc_maxlifetime文件)来决定是否删除文件。