PHP的输出缓冲区

什么是输出缓冲区？

PHP的输出流包含很多字节，通常都是程序员要PHP输出的文本，这些文本大多是echo语句或者printf()函数输出的。对于PHP中的输出缓冲区，你要知道三点内容。

第一点是任何会输出点什么东西的函数都会用到输出缓冲区，当然这说的是用PHP写的程序。如果你是编写PHP扩展，你使用的函数（C函数）可能会直接将输出写到SAPI缓冲区层，而不需要经过OB层。你可以在源文件main/php_output.h中了解到这些C函数的API文档，这个文件给我们提供了很多其他的信息，例如默认的缓冲区大小。

第二点你需要知道的是输出缓冲区层不是唯一用于缓冲输出的层，它实际上只是很多层中的一个。最后一点你要记住输出缓冲区层的行为跟你使用的SAPI（web或cli）相关，不同的SAPI可能有不同的行为。我们先通过一个图片来看看这些层的关系：

上面这张图片展示了PHP中的三种缓冲区层的逻辑关系。上面的两层就是我们通常所认识到的“输出缓冲区”，最后一个是SAPI中的输出缓冲区。这些都是PHP中的层，当输出的字节离开PHP进入计算机体系结构中的更底层时，缓冲区又会不断出现（终端缓冲区（terminal buffer），fast-cgi缓冲区，web服务器缓冲区，OS缓冲区，TCP/IP栈缓冲区。。。）。请记住一个通用原则，除了这篇文章中讨论的PHP中的情况外，一个软件的很多部分都会先保留信息，然后再把它们传递到下一部分，直到最终把这些信息传递给用户。

CLI的SAPI有点特殊，这里重点讲一下。CLI会将INI配置中的output_buffer选项强制设置为0，这表示禁用默认PHP输出缓冲区。所以在CLI中，默认情况下你要输出的东西会直接传递到SAPI层，除非你手动调用ob_()类函数。并且在CLI中，implicit_flush的值也会被设置为1。我们经常会搞不清implicit_flush的作用，当implicit_flush被设置为打开（值为1），一旦有任何输出写入到SAPI缓冲区层，它都会立即刷新（flush，意思是把这些数据写入到更低层，并且缓冲区会被清空）。换句话说就是：任何时候当你写入任何数据到CLI SAPI中时，CLI SAPI都会立即将这些数据扔到它的下一层去，一般会是标准输出管道，write()和fflush()这两个函数就是负责干这个事情的。简单，对吧！

默认PHP输出缓冲区

如果你使用不同于CLI的SAPI，像PHP-FPM，你会用到下面三个跟缓冲区相关的INI配置选项：

output_buffering
implicit_flush
output_handler

在搞清楚这几个选项的含义之前，有一点需要先说明下，不能在运行时使用ini_set()改这几个选项的值。这些选项的值会在PHP程序启动的时候，还没有运行任何脚本之前解析，所以也许在运行时可以使用ini_set()改变它们的值，但改变后的值并不会生效，一切都已经太迟了，因为输出缓冲区层已经启动并已激活。你只能通过编辑php.ini文件或者是在执行PHP程序的时候使用-d选项才能改变它们的值。

默认情况下，PHP发行版会在php.ini中把output_buffering设置为4096个字节。如果你不使用任何php.ini文件（或者也不会在启动PHP的时候使用-d选项），它的默认值将为0，这表示禁用输出缓冲区。如果你将它的值设置为“ON”，那么默认的输出缓冲区的大小将是16kb。你可能已经猜到了，在web应用环境中对输出的内容使用缓冲区对性能有好处。默认的4k的设置是一个合适的值，这意味着你可以先写入4096个ASCII字符，然后再跟下面的SAPI层通信。并且在web应用环境中，通过socket一个字节一个字节的传输消息的方式对性能并不好。更好的方式是把所有内容一次性传输给服务器，或者至少是一块一块地传输。层与层之间的数据交换的次数越少，性能越好。你应该总是保持输出缓冲区处于可用状态，PHP会负责在请求结束后把它们中的内容传输给终端用户，你不用做任何事情。

implicit_flush已在前面谈论CLI的时候提到过。对于其他的SAPI，implicit_flush默认被设置为关闭(off)，这是正确的设置，因为只要有新数据写入就刷新SAPI的做法很可能并非你所希望的。对于FastCGI协议，刷新操作(flushing)是每次写入后都发送一个FastCGI数组包(packet)，如果发送数据包之前先把FastCGI的缓冲区写满会更好一些。如果你想手动刷新SAPI的缓冲区，使用PHP的flush()函数。如果你想写一次就刷新一次，你可以设置INI配置中的implicit_flush选项，或者调用一次ob_implicit_flush()函数。

output_handler是一个回调函数，它可以在缓冲区刷新之前修改缓冲区中的内容。PHP的扩展提供了很多回调函数（用户也可以自己编写回调函数，下面会讲到）。

ob_gzhandler : 使用ext/zlib压缩输出
mb_output_handler : 使用ext/mbstring转换字符编码
ob_iconv_handler : 使用ext/iconv转换字符编码
ob_tidyhandler : 使用ext/tidy整理输出的HTML文本
ob_[inflate/deflate]_handler : 使用ext/http压缩输出
ob_etaghandler : 使用ext/http自动生成HTTP的Etag

缓冲区中的内容会传递给你选择的回调函数（只能用一个）来执行内容转换的工作，所以如果你想获取PHP传输给web服务器以及用户的内容，你可以使用输出缓冲区回调。当前有一点也需要提一下，这里说的“输出”指的是消息头（headers）和消息体（body）。HTTP的消息头也是OB层的一部分。

消息头和消息体

当你使用一个输出缓冲区（无论是用户的，还是PHP的）的时候，你可能想以你希望的方式发送HTTP消息头和内容。你知道任何协议都必须在发送消息体之前发送消息头（这也是为什么叫做“头”），但是如果你使用了输出缓冲区层，那么PHP会接管这些，而不需要你操心。实际上，任何跟消息头的输出有关的PHP函数（header()，setcookie()，session_start()）都使用了内部的sapi_header_op()函数，这个函数只会把内容写入到消息头缓冲区中。然后当你输出内容是，例如使用printf()，这些内容会写入到输出缓冲区（假设只有一个）。当这个输出缓冲区中的内容需要被发送时，PHP会先发送消息头，然后发送消息体。PHP为你搞定了所有的事情。如果你觉得不爽，想自己动手，那你就只有把输出缓冲区禁用掉，除此之外别无他法。

用户输出缓冲区（user output buffers)

对于用户输出缓冲区，我们先通过一个示例来看看它是怎么工作的，以及你可以用它来做什么。再强调一下，如果你想使用默认PHP输出缓冲区层的话，你不能使用CLI，因为它已禁用了这个层。下面的这个示例用的就是默认PHP输出缓冲区，使用了PHP的内部web服务器SAPI：

/* launched via php -doutput_buffering=32 -dimplicit_flush=1 -S127.0.0.1:8080 -t/var/www */
echo str_repeat('a', 31);
sleep(3);
echo 'b';
sleep(3);
echo 'c';

在这个示例中，启动PHP的时候将默认输出缓冲区的大小设置为32字节，程序运行后会先向其中写入31个字节，然后进入睡眠状态。此时屏幕是空的，什么都不会输出，跟预计一样。2秒之后睡眠结束，再写入了一个字节，这个字节填满了缓冲区，它会立即刷新自身，把里面的数据传递给SAPI层的缓冲区，因为我们将implicit_flush设置为1，所以SAPI层的缓冲区也会立即刷新到下一层。字符串’aaaaaaaaaa{31个a}b’会出现在屏幕上，然后脚本再次进入睡眠状态。2秒之后，再输出一个字节，此时缓冲区中有31个空字节，但是PHP脚本已执行完毕，所以包含这1个字节的缓冲区也会立即刷新，从而会在屏幕上输出字符串’c’。

从这个示例我们可以看到默认PHP输出缓冲区是如何工作的。我们没有调用任何跟缓冲区相关的函数，但这并不意味这它不存在，你要认识到它就存在当前程序的运行环境中（在非CLI模式中才有效）。

OK，现在开始讨论用户输出缓冲区，它通过调用ob_start()创建，我们可以创建很多这种缓冲区（至到内存耗尽为止），这些缓冲区组成一个堆栈结构，每个新建缓冲区都会堆叠到之前的缓冲区上，每当它被填满或者溢出，都会执行刷新操作，然后把其中的数据传递给下一个缓冲区。

ob_start(function($ctc) { static $a = 0; return $a++ . '- ' . $ctc . "\n";}, 10);
ob_start(function($ctc) { return ucfirst($ctc); }, 3);
echo "fo";
sleep(2);
echo 'o';
sleep(2);
echo "barbazz";
sleep(2);
echo "hello";
/* 0- FooBarbazz\n 1- Hello\n */

在此我代替原作者讲解下这个示例。我们假设第一个ob_start创建的用户缓冲区为缓冲区1，第二个ob_start创建的为缓冲区2。按照栈的后进先出原则，任何输出都会先存放到缓冲区2中。
缓冲区2的大小为3个字节，所以第一个echo语句输出的字符串'fo'（2个字节）会先存放在缓冲区2中，还差一个字符，当第二echo语句输出的'o'后，缓冲区2满了，所以它会刷新(flush)，在刷新之前会先调用ob_start()的回调函数，这个函数会将缓冲区内的字符串的首字母转换为大写，所以输出为'Foo'。然后它会被保存在缓冲区1中，缓冲区1的大小为10。
第三个echo语句会输出'barbazz'，它还是会先放到缓冲区2中，这个字符串有7个字节，缓冲区2已经溢出了，所以它会立即刷新，调用回调函数得到的结果为'Barbazz'，然后被传递到缓冲区1中。这个时候缓冲区1中保存了'FooBarbazz'，10个字符，缓冲区1会刷新，同样的先会调用ob_start()的回调函数，缓冲区1的回调函数会在字符串前面添加行号，以及在尾部添加一个回车符，所以输出的第一行是'o- FooBarbazz'。
最后一个echo语句输出了字符串'hello'，它大于3个字符，所以会触发缓冲区2刷新，因为此时脚本已执行完毕，所以也会立即刷新缓冲区1，最终得到的第二行输出为'1- Hello'。

应用

大文件流式下载

<?php
header('Content-Description: File Transfer');
header('Content-Type: application/octet-stream');
header('Content-Disposition: attachment; filename="test.txt"');
header('Expires: 0');
header('Cache-Control: must-revalidate');
header('Pragma: public');
$file = 'a big file';
$fp = fopen('php://output', 'wb+');
$fe = fopen($file, 'rb');
ob_implicit_flush();
while (!feof($fe)) {
    fwrite($fp, fread($fe, 2048));
    ob_flush();
    flush();
}
fclose($fe);
fclose($fp);

总结

输出层（output layer）就像一个网，它会把所有从PHP”遗漏“的输出圈起来，然后把它们保存到一个大小固定的缓冲区中。当缓冲区被填满了的时，里面的内容会刷新（写入）到下一层（如果有的话），或者是写入到下面的逻辑层：SAPI缓冲区。开发人员可以控制缓冲区的数量、大小以及在每个缓冲区层可以执行的操作（清除、刷新和删除）。这种方式非常灵活，它允许库和框架设计者可以完全控制它们自己输出的内容，并把它们放到一个全局的缓冲区中。对于输出，我们需要知道任何输出流的内容和任何HTTP消息头，PHP都会以正确的顺序发送它们。

输出缓冲区也有一个默认缓冲区，可以通过设置3个INI配置选项来控制它，它们是为了防止出现过大量的细小的写入操作，从而造成访问SAPI层过于频繁，这样网络消耗会很大，不利于性能。PHP的扩展也可以定义回调函数，然后在每个缓冲区上执行这个回调，这种应用已经有很多了，例如执行数据压缩，HTTP消息头管理以及搞很多其他的事情。

转载自 https://gywbd.github.io/posts/2015/1/php-output-buffer-in-deep.html

PHP的输出缓冲区