分类归档: PHP

[转] 榨干 PHP,提高效率

原文地址:http://www.phpchina.com/bbs/thread-13409-1-1.html

这篇杂文翻译整理自网络各路文档资料(见最末的参考资料),尤其是 Ilia Alshanetsky (佩服之至) 在多个 PHP 会议上的演讲,主要是各类提高 PHP 性能的技巧。为求精准,很多部分都有详细的效率数据,以及对应的版本等等。偷懒,数据就不一一给出了,直接给结论,如果需要看原文档,请到文末「参考资料」部分。橙色标题为推荐部分。

========================================================

静态调用的成员一定要定义成 static   (PHP5 ONLY)

贴士:PHP 5 引入了静态成员的概念,作用和 PHP 4 的函数内部静态变量一致,但前者是作为类的成员来使用。静态变量和 Ruby 的类变量(class variable)差不多,所有类的实例共享同一个静态变量。

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
class foo {
     function
bar() {
         echo
‘foobar’;
     }
}

$foo = new foo;

// instance way

$foo->bar();

// static way

foo::bar();
?>

静态地调用非 static 成员,效率会比静态地调用 static 成员慢 50-60%。主要是因为前者会产生 E_STRICT 警告,内部也需要做转换。

使用类常量 (PHP5 ONLY)

贴士:PHP 5 新功能,类似于 C++ 的 const。

使用类常量的好处是:

– 编译时解析,没有额外开销
– 杂凑表更小,所以内部查找更快
– 类常量仅存在于特定「命名空间」,所以杂凑名更短
– 代码更干净,使除错更方便

(暂时)不要使用 require/include_once

require/include_once 每次被调用的时候都会打开目标文件!

– 如果用绝对路径的话,PHP 5.2/6.0 不存在这个问题
– 新版的 APC 缓存系统已经解决这个问题

文件 I/O 增加 => 效率降低

如果需要,可以自行检查文件是否已被 require/include。

不要调用毫无意义的函数

有对应的常量的时候,不要使用函数。

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
php_uname
(‘s’) == PHP_OS;
php_version() == PHP_VERSION;
php_sapi_name() == PHP_SAPI;
?>

虽然使用不多,但是效率提升大概在 3500% 左右。

最快的 Win32 检查

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
$is_win
= DIRECTORY_SEPARATOR == ‘\’;
?>


– 不用函数
– Win98/NT/2000/XP/Vista/Longhorn/Shorthorn/Whistler…通用
– 一直可用

时间问题 (PHP>5.1.0 ONLY)

你如何在你的软件中得知现在的时间?简单,「time() time() again, you ask me…」。

不过总归会调用函数,慢。

现在好了,用 $_SERVER[‘REQUEST_TIME’],不用调用函数,又省了。

加速 PCRE

– 对于不用保存的结果,不用 (),一律用 (?

这样 PHP 不用为符合的内容分配内存,省。效率提升 15% 左右。

– 能不用正则,就不用正则,在分析的时候仔细阅读手册「字符串函数」部分。有没有你漏掉的好用的函数?

例如:

strpbrk()
strncasecmp()
strpos()/strrpos()/stripos()/strripos()

加速 strtr

如果需要转换的全是单个字符的时候,用字符串而不是数组来做 strtr:

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
$addr
= strtr($addr, "abcd", "efgh"); // good
$addr = strtr($addr, array(‘a’ => ‘e’,
                           
// …
                           
)); // bad
?>

效率提升:10 倍。

不要做无谓的替换

即使没有替换,str_replace 也会为其参数分配内存。很慢!解决办法:

– 用 strpos 先查找(非常快),看是否需要替换,如果需要,再替换

效率:

– 如果需要替换:效率几乎相等,差别在 0.1% 左右。
– 如果不需要替换:用 strpos 快 200%。

邪恶的 @ 操作符

不要滥用 @ 操作符。虽然 @ 看上去很简单,但是实际上后台有很多操作。用 @ 比起不用 @,效率差距:3 倍。

特别不要在循环中使用 @,在 5 次循环的测试中,即使是先用 error_reporting(0) 关掉错误,在循环完成后再打开,都比用 @ 快。

善用 strncmp

当需要对比「前 n 个字符」是否一样的时候,用 strncmp/strncasecmp,而不是 substr/strtolower,更不是 PCRE,更千万别提 ereg。strncmp/strncasecmp 效率最高(虽然高得不多)。

慎用 substr_compare (PHP5 ONLY)

按照上面的道理,substr_compare 应该比先 substr 再比较快咯。答案是否定的,除非:

– 无视大小写的比较
– 比较较大的字符串

不要用常量代替字符串

为什么:

– 需要查询杂凑表两次
– 需要把常量名转换为小写(进行第二次查询的时候)
– 生成 E_NOTICE 警告
– 会建立临时字符串

效率差别:700%。

不要把 count/strlen/sizeof 放到 for 循环的条件语句中

贴士:我的个人做法

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
for ($i = 0, $max = count($array);$i < $max; ++$i);
?>

效率提升相对于:

– count 50%
– strlen 75%

短的代码不一定快

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
// longest
if ($a == $b) {
    
$str .= $a;
} else {
    
$str .= $b;
}

// longer
if ($a == $b) {
    
$str .= $a;
}
$str .= $b;

// short
$str .= ($a == $b ? $a : $b);
?>

你觉得哪个快?

效率比较:

– longest: 4.27
– longer: 4.43
– short: 4.76

不可思议?再来一个:

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
// original
$d = dir(‘.’);
while ((
$entry = $d->read()) !== false) {
     if (
$entry == ‘.’ || $entry == ‘..’) {
         continue;
     }
}

// versus
glob(‘./*’);

// versus (include . and ..)
scandir(‘.’);
?>

哪个快?

效率比较:

– original: 3.37
– glob: 6.28
– scandir: 3.42
– original without OO: 3.14
– SPL (PHP5): 3.95

画外音:从此也可以看出来 PHP5 的面向对象效率提高了很多,效率已经和纯函数差得不太多了。

提高 PHP 文件访问效率

需要包含其他 PHP 文件的时候,使用完整路径,或者容易转换的相对路径。

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php

include ‘file.php’; // bad approach

incldue ‘./file.php’; // good

include ‘/path/to/file.php’; // ideal

?>

物尽其用

PHP 有很多扩展和函数可用,在实现一个功能的之前,应该看看 PHP 是否有了这个功能?是否有更简单的实现?

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
$filename
= "./somepic.gif";
$handle = fopen($filename, "rb");
$contents = fread($handle, filesize($filename));
fclose($handle);

// vs. much simpler

file_get_contents(‘./somepic.gif’);
?>

关于引用的技巧

引用可以:

– 简化对复杂结构数据的访问
– 优化内存使用

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
$a
[‘b’][‘c’] = array();

// slow 2 extra hash lookups per access
for ($i = 0; $i < 5; ++$i)
    
$a[‘b’][‘c’][$i] = $i;

// much faster reference based approach
$ref =& $a[‘b’][‘c’];
for (
$i = 0; $i < 5; ++$i)
    
$ref[$i] = $i;
?>

QUOTE:
// PHP CODE Highliting for CU by dZ902

<?php
$a
= ‘large string’;

// memory intensive approach
function a($str)
{
     return
$str.‘something’;
}

// more efficient solution
function a(&$str)
{
    
$str .= ‘something’;
}
?>

==============================================
参考资料

http://ilia.ws

Ilia 的个人网站,Blog,他参与的开发以及出版的一些稿物链接等等。

http://ez.no

eZ components 官方网站,eZ comp 是针对 PHP5 的开源通用库,以效率为己任,Ilia 也参与了开发。

http://phparch.com

php|architect,不错的 php 出版商/培训组织。买不起或者买不到的话,网上可以下到很多经典的盗版。

http://talks.php.net

PHP 会议上的演讲合集,现在还不是很丰富,不过内容都是让人一看就容易废寝忘食的好东东,推荐早上睡眼朦胧的时候或者吃完午饭仔细研究,否则你会忘记吃饭和睡觉的!

Read: 920

[原创] 一个用来删除线性表重复元素的算法

由于我C不行,所以就用PHP来实现了,嘿嘿

这个程序应该还可以再优化, 哪位高人给指点一下吧

有线性表 L0,L1,L2 三个线性表

要求将三个线性表中重复的元素删除,已知线性表的元素类型为 整型 且 按值的大小 升序排列

// a b c 为三个线性表的游标
$a = 0; $b = 0; $c = 0;
while ( 1 ) {
if ( !isset($L0[ $a ]) || !isset($L1[ $b ]) || !isset($L2[ $c ]) )
break;
if ( $L0[ $a ] == $L1[ $b ] && $L1[ $b ] == $L2[ $c ] )
unset( $L0[ $a ] );
$a++;
while ( $L1[ $b ] < $L0[ $a ] && isset($L1[ $b ]) )
$b ++;
while ( $L2[ $c ] < $L0[ $a ] && isset($L2[ $c ]) )
$c ++;
}

Read: 853

【转】为什么要 SET NAMES

大家都知道
SET NAMES x
相当于
SET character_set_client = x;
SET character_set_results = x;
SET character_set_connection = x;

以下从MySQL5.0官方文档上摘录了相关内容,并翻译,说明了相关系统变量的用处:

What character set is the statement in when it leaves the client?
statement离开客户端的时候是什么字符集?

The server takes the character_set_client system variable to be the character set in which statements are sent by the client.
客户端送过来的statement,服务器认为它的字符集是系统变量character_set_client的值。

What character set should the server translate a statement to after receiving it?
服务器收到一个statement后,会把它转换成什么字符集?

For this, the server uses the character_set_connection and collation_connection system variables. It converts statements sent by the client from character_set_client to character_set_connection (except for string literals that have an introducer such as _latin1 or _utf8). collation_connection is important for comparisons of literal strings. For comparisons of strings with column values, collation_connection does not matter because columns have their own collation, which has a higher collation precedence.
为了这一用途,服务器使用系统变量character_set_connection和collation_connection。它把客户端传来的 statement,从character_set_client字符集转换成character_set_connection字符集(除非字符串中有 类似_latin1或者_utf8的字符集声明)。collation_connection对于字符串的比较是非常重要的。对于字符类型的字段值的比 较,collation_connection是不起作用的。因为字段有自己的collation,有更高的优先级。

What character set should the server translate to before shipping result sets or error messages back to the client?
在结果集由服务器传递给客户端之前,需要转换成什么字符集?

The character_set_results system variable indicates the character set in which the server returns query results to the client. This includes result data such as column values, and result metadata such as column names.
character_set_results系统变量表明了服务器返回查询结果时使用的字符集。返回的数据,有比如字段的值和元数据(例如字段名)。

If you are using the mysql client with auto-reconnect enabled (which is not recommended), it is preferable to use the charset command rather than SET NAMES. For example:
如果你使用mysql客户端的自动重连(不推荐使用),最好用charset命令,而不是SET NAMES。例如:

mysql> charset utf8
Charset changed

The charset command issues a SET NAMES statement, and also changes the default character set that is used if mysql reconnects after the connection has dropped.
charset命令发出了一个SET NAMES语句,并且连接断开后自动重连时使用的缺省字符集也被修改了。

The database character set and collation are used as default values if the table character set and collation are not specified in CREATE TABLE statements. They have no other purpose.
如果CREATE TABLE中没有明确指出字符集和collation,那么database字符集和collation将做为缺省值,它们没有其他的用处。

The character set and collation for the default database can be determined from the values of the character_set_database and collation_database system variables. The server sets these variables whenever the default database changes. If there is no default database, the variables have the same value as the corresponding server-level system variables, character_set_server and collation_server.
缺省database的字符集和collation可以通过系统变量character_set_database和 collation_database查看。服务器当缺省database改变时设置这些变量的值。如果没有缺省的database,这些变量的将与对应 的服务器级的系统变量-character_set_server和collation_server的值相同。

The table character set and collation are used as default values if the column character set and collation are not specified in individual column definitions. The table character set and collation are MySQL extensions; there are no such things in standard SQL.
表的字符集和collation会作为缺省值,如果列的定义中没有指明字符集和collation的话。

Every “character” column (that is, a column of type CHAR, VARCHAR, or TEXT) has a column character set and a column collation.
每个“字符”字段(即CHAR、VARCHAR或者TEXT类型的字段)都有一个字段字符集和字段校验(collation)。

Every character string literal has a character set and a collation.
每个字符串有一个字符集和一个较验。

A character string literal may have an optional character set introducer and COLLATE clause:
每个字符串有一个可选的字符集introducer和COLLATE子句:

[_charset_name]’string’ [COLLATE collation_name]

Examples:

SELECT ‘string’;
SELECT _latin1’string’;
SELECT _latin1’string’ COLLATE latin1_danish_ci;

Read: 32

服务器变量:$_SERVER 详解

服务器变量:$_SERVER

其实这些东西手册里都有的,,,,,,,,,,,但我还是没事找事的放上来。。。我找抽吗?也许

注: 在 PHP 4.1.0 及以后版本使用。之前的版本,使用 $HTTP_SERVER_VARS。

$_SERVER 是一个包含诸如头部(headers)、路径(paths)和脚本位置(script locations)的数组。数组的实体由 web 服务器创建。不能保证所有的服务器都能产生所有的信息;服务器可能忽略了一些信息,或者产生了一些未在下面列出的新的信息。这意味着,大量的这些变量在 CGI 1.1 specification 中说明,所以您应该仔细研究它。

这是一个“superglobal”,或者可以描述为自动全局变量。这只不过意味这它在所有的脚本中都有效。在函数或方法中您不需要使用 global $_SERVER; 访问它,就如同使用 $HTTP_SERVER_VARS 一样。

$HTTP_SERVER_VARS 包含着同样的信息,但是不是一个自动全局变量。(注意: $HTTP_SERVER_VARS 和 $_SERVER 是不同的变量,PHP 处理它们的方式不同。)

如 果设置了 register_globals 指令,这些变量也在所有脚本中可用;也就是,分离了 $_SERVER 和 $HTTP_SERVER_VARS 数组。相关信息,请参阅安全的相关章节 使用 Register Globals。这些单独的全局变量不是自动全局变量。

您或许会发现下面列出的某些 $_SERVER 元素并不可用。注意,如果以命令行方式运行 PHP,下面列出的元素几乎没有有效的(或是没有任何实际意义的)。

“PHP_SELF”
当前正在执行脚本的文件名,与 document root相关。举例来说,在URL地址为
http://example.com/test.php/foo.bar 的脚本中使用 $_SERVER[‘PHP_SELF’] 将会得到 /test.php/foo.bar 这个结果。

如果 PHP 以命令行方式运行,该变量无效。

“argv”
传递给该脚本的参数。当脚本运行在命令行方式时,argv 变量传递给程序 C 语言样式的命令行参数。当调用 GET 方法时,该变量包含请求的数据。

“argc”
包含传递给程序的命令行参数的个数(如果运行在命令行模式)。

“GATEWAY_INTERFACE”
服务器使用的 CGI 规范的版本。例如,“CGI/1.1”。

‘SERVER_NAME’
当前运行脚本所在服务器主机的名称。如果该脚本运行在一个虚拟主机上,该名称是由那个虚拟主机所设置的值决定。

‘SERVER_SOFTWARE’
服务器标识的字串,在响应请求时的头部中给出。

“SERVER_PROTOCOL”
请求页面时通信协议的名称和版本。例如,“HTTP/1.0”。

“REQUEST_METHOD”
访问页面时的请求方法。例如:“GET”、“HEAD”,“POST”,“PUT”。

“QUERY_STRING”
查询(query)的字符串。

“DOCUMENT_ROOT”
当前运行脚本所在的文档根目录。在服务器配置文件中定义。

“HTTP_ACCEPT”
当前请求的 Accept: 头部的内容。

“HTTP_ACCEPT_CHARSET”
当前请求的 Accept-Charset: 头部的内容。例如:“iso-8859-1,*,utf-8”。

“HTTP_ACCEPT_ENCODING”
当前请求的 Accept-Encoding: 头部的内容。例如:“gzip”。

“HTTP_ACCEPT_LANGUAGE”
当前请求的 Accept-Language: 头部的内容。例如:“en”。

“HTTP_CONNECTION”
当前请求的 Connection: 头部的内容。例如:“Keep-Alive”。

“HTTP_HOST”
当前请求的 Host: 头部的内容。

“HTTP_REFERER”
链接到当前页面的前一页面的 URL 地址。不是所有的用户代理(浏览器)都会设置这个变量,而且有的还可以手工修改 HTTP_REFERER。因此,这个变量不总是正确真实的。

“HTTP_USER_AGENT”
当前请求的 User_Agent: 头部的内容。该字符串表明了访问该页面的用户代理的信息。一个典型的例子是:Mozilla/4.5 [en] (X11; U; Linux 2.2.9 i586)。您也可以使用 get_browser() 得到这个信息。

“REMOTE_ADDR”
正在浏览当前页面用户的 IP 地址。

‘REMOTE_HOST’
正在浏览当前页面用户的主机名。反向域名解析基于该用户的 REMOTE_ADDR。

注: 必须配置 Web 服务器来建立此变量。例如 Apache 需要在 httpd.conf 中有 HostnameLookups On。参见 gethostbyaddr()。

“REMOTE_PORT”
用户连接到服务器时所使用的端口。

“SCRIPT_FILENAME”
当前执行脚本的绝对路径名。

“SERVER_ADMIN”
该值指明了 Apache 服务器配置文件中的 SERVER_ADMIN 参数。如果脚本运行在一个虚拟主机上,则该值是那个虚拟主机的值。

“SERVER_PORT”
服务器所使用的端口。默认为“80”。如果你使用 SSL 安全连接,则这个值为您所设置的 HTTP 端口。

“SERVER_SIGNATURE”
包含服务器版本和虚拟主机名的字符串。

“PATH_TRANSLATED”
当前脚本所在文件系统(不是文档根目录)的基本路径。这是在服务器进行虚拟到真实路径的映像后的结果。

“SCRIPT_NAME”
包含当前脚本的路径。这在页面需要指向自己时非常有用。

“REQUEST_URI”
访问此页面所需的 URI。例如,“/index.html”。

“PHP_AUTH_USER”
当 PHP 运行在 Apache 模块方式下,并且正在使用 HTTP 认证功能,这个变量便是用户输入的用户名。

“PHP_AUTH_PW”
当 PHP 运行在 Apache 模块方式下,并且正在使用 HTTP 认证功能,这个变量便是用户输入的密码。

“AUTH_TYPE”
当 PHP 运行在 Apache 模块方式下,并且正在使用 HTTP 认证功能,这个变量便是认证的类型。

Read: 818

patTemplate模板类的使用实例


前面讲了一个phplib的使用,作为模板驱动的代表patTemplate一样有着稳定,快速开发等等的优点,下面介绍一个简单实用的例子,我们使用test.php来解析模板test.html 并使用patTemplate作为模板引擎

test.html 模板文件:

<patTemplate:tmpl name="article">
<html>
<head>
<title>A patTemplate example</title>
</head>
<body>
<h3>{HEADLINE}</h3>
{CONTENT}
</body>
</html>
</patTemplate:tmpl>

其中的变量headlinecontent是需要我们通过patTemplate来解析过来的

test.php文件:

<?PHP
//包含进模板类文件
include("includes/patTemplate.php");  
// 初始化模板对象
$tmpl = new patTemplate();  
// 设定模板文件目录
$tmpl->setBasedir("templates");  
// 设定使用的模板文件
$tmpl->readTemplatesFromFile("example1.tmpl.html");  
// 向模板添加变量
$tmpl->addVar("article", "HEADLINE", "This is the headline");
$tmpl->addVar("article", "CONTENT", "And this is the content…");  
// 最终解析并显示模板
$tmpl->displayParsedTemplate("article");
?>  

这是最简单的一个例子,当然如果你熟悉PHPLIB的话,那么也可以轻松的在patTemplate里面使用象PHPLIB一样的循环结构,后面再介绍吧

Read: 132