月度归档:2009年10月

获取远程大文件部分内容的方法

获取远程大文件部分内容的方法

【需求】
取远程文件的一部分,文件是以换行隔开,并且这个文件可能比较大

【第一次的方案】
这是我的第一个方案,也是很傻很天真却正确的方案,
这个在当时没有考虑到文件会比较大,而且也没有考虑下载时间过长,导致程序出错!
解决方案是使用PHP中的file()函数,这样会得到一个以行为单位的数组,然后是对这个数组的处理
file函数也可以使用file_get_contents代替,只是需要使用explode函数处理一下。

【优化后的方案】
由于我们所要取的数据不是全部,只是其中的一部分,我们可以只取其中的一部分,
开始使用fseek函数定位文件指针,只是它不支持URL地址
后来想到文件下载中的断点续传,在HTTP协议中存在Range字段,
Range是在 HTTP/1.1(http://www.w3.org/Protocols/rfc2616/rfc2616.html)里新增的一个 header field,也是现在众多号称多线程下载工具(如 FlashGet、迅雷等)实现多线程下载的核心所在。
Range 的规范定义如下:
ranges-specifier = byte-ranges-specifier
byte-ranges-specifier = bytes-unit “=” byte-range-set
byte-range-set = 1#( byte-range-spec | suffix-byte-range-spec )
byte-range-spec = first-byte-pos “-” [last-byte-pos]
first-byte-pos = 1*DIGIT
last-byte-pos = 1*DIGIT

一些其它介绍可以移步:http://minms.blogbus.com/logs/39569593.html
或者直接查看RFC

我们使用文件记录上次访问的位置,下次直接从这个位置访问
使用PHP的fsockopen函数实现获取大文件部分内容的代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
<?PHP
header("Content-type:text/html;charset=UTF-8");
 
$host = "downloads.php.net";
$port = 80;
$path = "/johannes/php-5.3.1RC1.tar.bz2";
$start = 0;
$length = 100;
 
$content = get_remote_content($host, $port, $path, $start, $length);
$content_length = strlen($content);
 
if (!empty($content)) {
    $file = array();
    if (preg_match("/Content-Length:.?(\d+)/", $content, $matches)) {
        $header_length = $matches[1];
        $content = substr($content, $content_length - $header_length);
 
        if (!empty($header_length)) {   //  更新start,可能需要记录当前位置
            $start = $start + $header_length;
        }
    }
}
echo $content;
 
//echo xdebug_time_index();
die();
 
 
 
/**
 * 获取远程文件内容
 * @param <type> $host 主机
 * @param <type> $port 端口
 * @param <type> $path 路径
 * @param <type> $start 开始位置
 * @return <type> 远程部分内容
 */
function get_remote_content($host, $port = 80, $path = "/", $start = 0, $length = -1) {
    $fp = fsockopen($host, $port, $errno, $errstr);
    if (!$fp) {
        return false;
    }
 
    $range = $start . "-";
    if ($length != -1) {
        $range .= $start + $length;
    }
 
    $out = "GET " . $path . " HTTP/1.1\r\n";
    $out .= "Host: " . $host . "\r\n";
    $out .= "Range:bytes=" .$range . "\r\n";  //  取start之后的内容
    $out .= "Connection: Close\r\n\r\n";
    fwrite($fp, $out);
    $buffer = '';
    while (!feof($fp)) {
        $buffer .= fgets($fp, 4096);
    }
    return $buffer;
}

去掉fsockopen返回结果中的HTTP头信息的2种方法

去掉fsockopen返回结果中的HTTP头信息的两种方法

1、【使用split或substr,strpos截断】
在返回的内容中HTTP头信息与正文内容是以两个“换行回车”隔开的所以我们可以在此截断,取之后的内容。

2、【先取Content-Length,然后截取】
在HTTP协议中,Content-Length字段是一个比较重要的字段,它标明了服务器返回数据的长度,这个长度是不包含HTTP头长度的,也就是说我们可以从 总长度-Content-Length 开始截取
PHP代码如下:

1
2
3
4
   preg_match("/Content-Length:.?(\d+)/", $content, $matches);
    $length = $matches[1];
    $content = substr($content, - $length);  //感谢@fw
    //$content = substr($content, strlen($content) - $length);

这段段代码在性能上还有优化的空间

PHP中的生成XML文件的4种方法

PHP中的生成XML文件的4种方法
【前言】
使用PHP怎么创建XML文件呢?
一直以来都是使用别人封装好的类,没有自己尝试过,难得放几天假,于是自己总结了下。使用PHP生成XML文件的4种常见方法如下:

【XML文件内容】

1
2
3
4
5
6
7
8
9
10
11
12
13
<?xml version="1.0" encoding="utf-8"?>
<article>
    <item>
        <title size="1">title1</title>
        <content>content1</content>
        <pubdate>2009-10-11</pubdate>
    </item>
    <item>
        <title size="1">title2</title>
        <content>content2</content>
        <pubdate>2009-11-11</pubdate>
    </item>
</article>

【直接生成字符串】
方法1:使用纯粹的PHP代码生成字符串,并把这个字符串写入一个以XML为后缀的文件。这是最原始的生成XML的方法,不过有效!
PHP代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
<?PHP
$data_array = array(
    array(
    'title' => 'title1',
    'content' => 'content1',
        'pubdate' => '2009-10-11',
    ),
    array(
    'title' => 'title2',
    'content' => 'content2',
    'pubdate' => '2009-11-11',
    )
);
$title_size = 1;
 
$xml = "<?xml version=\"1.0\" encoding=\"utf-8\"?>\n";
$xml .= "<article>\n";
 
foreach ($data_array as $data) {
    $xml .= create_item($data['title'], $title_size, $data['content'], $data['pubdate']);
}
 
$xml .= "</article>\n";
 
echo $xml;
 
//  创建XML单项
function create_item($title_data, $title_size, $content_data, $pubdate_data) {
    $item = "<item>\n";
    $item .= "<title size=\"" . $title_size . "\">" . $title_data . "</title>\n";
    $item .= "<content>" . $content_data . "</content>\n";
    $item .= " <pubdate>" . $pubdate_data . "</pubdate>\n";
    $item .= "</item>\n";
 
    return $item;
}
 
 
?>

【DomDocument】
方法2:使用DomDocument生成XML文件
创建节点使用createElement方法,
创建文本内容使用createTextNode方法,
添加子节点使用appendChild方法,
创建属性使用createAttribute方法
PHP代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
<?PHP
$data_array = array(
    array(
    'title' => 'title1',
    'content' => 'content1',
        'pubdate' => '2009-10-11',
    ),
    array(
    'title' => 'title2',
    'content' => 'content2',
    'pubdate' => '2009-11-11',
    )
);
 
//  属性数组
$attribute_array = array(
    'title' => array(
    'size' => 1
    )
);
 
//  创建一个XML文档并设置XML版本和编码。。
$dom=new DomDocument('1.0', 'utf-8');
 
//  创建根节点
$article = $dom->createElement('article');
$dom->appendchild($article);
 
foreach ($data_array as $data) {
    $item = $dom->createElement('item');
    $article->appendchild($item);
 
    create_item($dom, $item, $data, $attribute_array);
}
 
echo $dom->saveXML();
 
function create_item($dom, $item, $data, $attribute) {
    if (is_array($data)) {
        foreach ($data as $key => $val) {
            //  创建元素
            $$key = $dom->createElement($key);
            $item->appendchild($$key);
 
            //  创建元素值
            $text = $dom->createTextNode($val);
            $$key->appendchild($text);
 
            if (isset($attribute[$key])) {  //  如果此字段存在相关属性需要设置
                foreach ($attribute[$key] as $akey => $row) {
                    //  创建属性节点
                    $$akey = $dom->createAttribute($akey);
                    $$key->appendchild($$akey);
 
                    // 创建属性值节点
                    $aval = $dom->createTextNode($row);
                    $$akey->appendChild($aval);
                }
            }   //  end if
        }
    }   //  end if
}   //  end function
?>

【XMLWriter】
方法3:使用XMLWriter类创建XML文件
此方法在PHP 5.1.2后有效
另外,它可以输出多种编码的XML,但是输入只能是utf-8
PHP代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
<?PHP
$data_array = array(
    array(
    'title' => 'title1',
    'content' => 'content1',
        'pubdate' => '2009-10-11',
    ),
    array(
    'title' => 'title2',
    'content' => 'content2',
    'pubdate' => '2009-11-11',
    )
);
 
//  属性数组
$attribute_array = array(
    'title' => array(
    'size' => 1
    )
);
 
$xml = new XMLWriter();
$xml->openUri("php://output");  //  输出方式,也可以设置为某个xml文件地址,直接输出成文件
$xml->setIndentString('  ');
$xml->setIndent(true);
 
$xml->startDocument('1.0', 'utf-8');    //  开始创建文件
//  根结点
$xml->startElement('article');
 
foreach ($data_array as $data) {    
    $xml->startElement('item');
 
    if (is_array($data)) {
        foreach ($data as $key => $row) {
            $xml->startElement($key);
 
            if (isset($attribute_array[$key]) && is_array($attribute_array[$key])) {
                foreach ($attribute_array[$key] as $akey => $aval) {    //  设置属性值
                    $xml->writeAttribute($akey, $aval);
                }
 
            }
 
            $xml->text($row);   //  设置内容
            $xml->endElement(); // $key
        }
 
    }
    $xml->endElement(); //  item
}
 
$xml->endElement(); //  article
$xml->endDocument();
 
$xml->flush();
?>

【SimpleXML】
方法4:使用SimpleXML创建XML文档

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
<?PHP
$data_array = array(
    array(
    'title' => 'title1',
    'content' => 'content1',
        'pubdate' => '2009-10-11',
    ),
    array(
    'title' => 'title2',
    'content' => 'content2',
    'pubdate' => '2009-11-11',
    )
);
 
//  属性数组
$attribute_array = array(
    'title' => array(
    'size' => 1
    )
);
 
$string = <<<XML
<?xml version='1.0' encoding='utf-8'?>
<article>
</article>
XML;
 
$xml = simplexml_load_string($string);
 
foreach ($data_array as $data) {
    $item = $xml->addChild('item');
    if (is_array($data)) {
        foreach ($data as $key => $row) {
            $node = $item->addChild($key, $row);
 
            if (isset($attribute_array[$key]) && is_array($attribute_array[$key])) {
                foreach ($attribute_array[$key] as $akey => $aval) {    //  设置属性值
                    $node->addAttribute($akey, $aval);
                }
            }
        }
    }
}
echo $xml->asXML();
?>