作者归档:admin

用户参与记录存储的演变

有这样一个应用场景:用户有两个连续的操作A和操作B,必须是操作A完成后才能执行操作B,如果操作A没有完成就触发了操作B,则显示用户需要先执行操作A,即在操作B执行需要查询操作A是否执行过。这里引申出来的问题是,记录用户参与记录,提供针对用户和操作的查询方法。当不同的数据量时,我们的存储方案会大不相同,随着数据的增长,方案不断演变。

1、数据量较小,用户操作行为固定:
存储:MySQL
方案:我们以UID为key,一行一个用户,每个用户包括的用户作为列存储,比如UID=100,固定存储为操作A和操作B,则表结构大致如下:
table_operation
uid operation_a operation_b
100 1 1

如果我们要查询用户是否参与A或B时,直接使用SQL: SELECT * FROM table_operation WHERE uid=100 AND action_a=1就可以达成目标。

问题:用户操作固定,扩展较难,如果需要增加用户操作行为,则需要增加字段或增加表存储,增加字段的方法在一定的数据量级以下(比如100万)是可行的,如果行为间无关,则增加表存储方案的表现会很不错。

2、数据量较小、用户操作行为不固定:
与场景1相比,当前场景除了uid这个变量,增加了用户操作变量,即我们需要关注用户和用户操作两个变量。
存储:MySQL
方案1:增加操作表,生成操作id,用户操作行为表存储uid和oid。当用户执行一个新的操作时就在操作行为表插入一条记录。其表结构大致如下:

table_operation_info
oid name
1 operation_a
2 operation_b

table_operation
uid oid
1 1
1 2

当需要查询用户1是否执行过操作A时,使用SQL:SELECT * FROM table_operation WHERE oid=1 AND oid=1。
问题:当用户的操作行为较多时,用户操作行为增长速度很快,数据量也为逐渐增大,可能MySQL单表无法负载。解决方案在后续场景中说明。

3、数据量较大,用户行为固定
存储:MySQL
方案:与场景1相比,当前场景不同在于数据量比场景1大,数据量大到MySQL单表负载不过来。此方案解决的就是这个问题,当单表太大时,性价比较高的方法一般是采用分表。我们当前场景的变量是uid,只要依据uid按水平分表即可。

4、数据量较大,用户行为不固定
存储: MySQL
方案1:此方案应用于用户的操作行为可以分类的情况,即在场景1的基础上增加两次分表操作,按操作行为类分表和按用户分表。当前方案中我们需要应对两个变量:操作行为和用户。两次分表分别对应这两个变量,按业务规则做操作行为的分表操作,按用户id水平切分减少数据量。

方案2:此方案是完全的水平分表操作,在场景2的方案基础上,按用户水平切分。

5、数据量超大
存储: MySQL
方案1:分库分表,此时一个库已经无法满足需求,规则依据前面的场景实现,根据实际的需求可以考虑把不同的库放不同的机器上。
方案2:在分库分表的基础上,按位存储,因为一个操作行为有没有执行过是一个是否的状态,即0,1状态,因此我们可以用一个位来存储,64位可以存储64个操作行为的标记。

其它存储
key-value数据库
我们的需求实际上并不需要太多的关系型数据库的功能,简单的 k-v数据库就可以实现我们的功能,并且在性能上也会有所提升,毕竟做得少,会快。
先不管是选择基于内存的,还是非内存的(可以根据实际需求来选择,也可以是热点数据在内存,沉默数据在非内存中),假设我们有足够的空间存储。
方案1:
以uid+oid为key,值可以存储状态,也可以只存储是否参与(0和1),但是会存在key太多的情况,特别是当数据量超大时,uid的个数*oid的个数,可能是你无法相像的量级。
方案2:
一般来说,用户操作行为的数据量完全小于用户的量级,并且用户操作行为的数据可控。如果要减少key的个数,我们可以使用oid+用户分区索引id作为key,这里所谓的用户分区索引是指将用户以某个数量分成一个区,所有的用户都记录在这个这个区间内,比如以10000为一个区间,则uid为1到9999的用户分到区间0,这里可以以1和0存储用户是否执行了此操作,一个key对应的value初始化存储10000个0。当uid=100的用户执行了某操作,则将第100个0置为1。
方案3:
在方案2的基础上,将10000个0转换为10000个01位,假设一个位存储50位,则总共只需要200个。
方案4:
当用户量超大时,大多数的用户对于某个操作可能都是没有参与的,则在方案3的基础上我们增加简单的稀疏矩阵压缩,给每个存储位添加索引,当存储值不为0时才会存储。
方案5:
我还没想到,期待你的分享

小结

  • 随着数据量的增大,总的思路是分冶,当一个表搞不定时分表,当一个库搞不定时分库,当一台机器搞不定时加机器。
  • 对于不同的存储介质选择需要考虑成本和需求,所有的选择都是平衡后的结果。
  • 节省空间,按位存储。
  • 不要过早优化。

使用Yii框架中遇到的三个问题

使用Yii框架中遇到的三个问题

1、main.php文件中欲引入全局变量的问题

还原一下此问题:在Yii框架中,main.php一般会作为整个应用的配置文件,保存Application的各种参数,直接return数组。在使用的过程中,因为main.php文件一定会被Yii提前加载,所以将一些全局性的操作也放在了此文件,加载一些类操作啥的没有什么问题,当有一次加了一个全局变量,并且在其它地方使用global获取全局变量时,发现无论我如何努力都得到的是NULL。各种尝试后,终于,把引入的位置放在入口文件index.php,得以解决。什么原因?我们重现一下Yii的main.php文件加载。如下代码

index.php文件:

 class CApp {
        public function __construct($config) {
            $config = require($config);
        }
    }
 
    $path = "main.php";
    $app = new CApp($path);
 
    global $global;
    var_dump($global);

main.php文件:

 <?php
    $global = array(1, 2, 3);
    return array();

两个文件放在同一目录,直接运行index.php,输出的$global为NULL,如果我们在CApp的构造函数中直接输出$global,则会有结果输出。什么原因?作用域的问题!

当我们在main.php文件中定义了一个变量,虽然是想将其作为全局变量使用,但是当我们在局部的作用域中require时,其仅仅作为一个局部作用域的变量存在。我们在TIPI中有说到函数调用是嵌套的,每个嵌套都会有一个作用域,在这个作用域中的变量仅在当前有效,嵌套结束,变量生命周期结束。

因此,我们如果想把main.php中的全局变量真的作为整个应用的全局变量使用,则需要在入口文件的作用域中require main.php文件。

2、引入第三方扩展时的class_exists问题

Yii框架Yii基于PHP5的autoload机制来提供类的自动加载功能,自动加载器为YiiBase类的静态方法autoload()。当程序中用new创建对象或访问到类的静态成员,PHP将类名传递给类加载器,由类加载器完成类文件的include。但是如果我们引入了第三方扩展,而第三方扩展的命名规则和Yii的不一样,于是我们会经常看到报错说 require XXX 文件失败。如果你在google中搜索“yii framework class_exists”,你会发现Yii框架的作用Xue Qiang有回答使用者可以通过使用类似于: class_exists(‘MyClass’, false)的方式。

class_exists函数检查类是否已定义,如果由 class_name 所指的类已经定义,此函数返回 TRUE,否则返回 FALSE。在PHP内核中,此函数会查找当前类表中由 class_name 所指的类是否存在,在查找之前会全部转化为小写,所以不会区分大小写。其第二个参数是指是否使用autoload,默认为使用,此时class_exists函数会先执行autoload,然后再查找执行了autoload后类表中由 class_name 所指的类是否存在。因此我们可以通过设置第二个参数其为FALSE来绕过自动加载。

这可以解决问题,但是如果我们使用的是无法修改的第三方代码呢?怎么办?我自己是简单的hack了下,在调用第三方的操作之就将需要的类给加载了。

后来又采用了另一种解决方案:直接使用Yii:import的第二个参数,强制加载整个目录。

3、Yii的错误日志

问题就不细述了,只是将生产环境的配置整到了开发环境,于是错误看不到了。调整了下日志的规则,就OK了。

Yii对错误日志的处理依赖于PHP的set_error_handler函数和set_exception_handler函数。在CApplication的initSystemHandlers方法中有对这两个函数的处理。

深圳港澳通行证和护照办理攻略

深圳港澳通行证和护照办理攻略

来深圳有些年了,一直没有办港澳通行证,一是没有如此强烈的需求,有些东西直接网上买了,二是懒了,不想跑。但是,现在到时间点了,得隔几周去一次香港搬点东西回来,毕竟那边有些东西还是靠谱一些。于是打算去办个通行证,和强哥聊的时候,强哥说既然都去了,干脆连接护照也一起办了吧,所需要的东西反正是一样的,准备两份就好了。在一通折腾后总算是把证办完了,趁着回执还热乎,写下这篇短文,希望能给后续有同样需求的朋友一些帮助。

与其说这是一个攻略,不如说是如何更快的在办证现场搞定这个事。这里没有各种细节说明,也没有各种文件下载,说的只是一个减少你在办证大厅的时间的过程。

以下流程仅适用于深圳地区。

这事主要是两点,一是提前预约,二是提前准备。

提前预约

提前预约是指提前在 【深圳市公安局出入境便民网】 上预约办证。预约地址:http://www.sz3e.com:8000/。输入身份证、选择受理单位,选择预约的日期和时间段,提交。然后在你预约的时间去办大厅咨询处取预约号,坐下等会儿应该就轮到你办了。可能在你前面还有若干个人,嘿嘿。很爽的感觉。这里建议提前30分钟到,不到你预约的点,工作人员是不会给你预约号的。

提前准备

提前准备是指提前将所需要的材料准备好,如果你是深户,那么准备好身份证及其复印件、户口本及其复印件。资料OK后就是准备填写表格,表格可以到办证大厅去拿,也可以自已拿,为了减少时间,我们还是自己去下载打印,填好后直接过去办就可以了。在这里可以下载到护照和通行证的表格。这些都准备好了,就剩下照片了,如果你没有照片回执,那么找个照相馆拍一张吧,实惠。如果你想偷懒,去大厅那边拍吧,就是有点贵。另外,由于我们要办两个证,所以回执需要复印一张,如果有其它需求,多复印几张也是可以的。嗯,办证大厅的复印也挺贵的。

其它信息

如果有些事情无法确定,提前打电话确认下吧。

另外说一句,这个网站的类别id有些奇怪,用的.net、tomcat。