gbk和utf8编码自动识别方法[php版]

搜索技术博客－淘宝 2014-12-01 23:37:27 累计浏览 3,041 次

本机暂存

内容概览

这篇讲的是如何在PHP中自动识别中文字符串的编码是GBK还是UTF-8。

它针对一个具体场景：当输入字符串只能是这两种编码之一时，如何快速准确地做出判断。文章给出的核心方案是一套清晰的判断逻辑，并提供了可直接使用的PHP函数。

作者的思路很巧妙，不是简单地二选一，而是先“假定”字符串是UTF-8，然后逐步排查它不符合UTF-8规则的各种情况。具体的判断规则有四条：从检查字节是否符合UTF-8的多字节结构，到验证其中是否包含中文字符，再到处理“鏈條”、“瑷媄”等容易混淆的特殊情况，逻辑层层递进。

代码实现上，它通过分析字节的二进制模式来逐字节解析，效率很高。作者提到，实测在处理20万条查询时，整个过程仅需1秒左右，准确率也令人满意。

这段代码在需要处理大量未知编码的中文文本（例如爬虫解析、数据清洗）的场景下非常实用。不过，使用时要注意确保PHP文件本身以GBK编码保存，因为代码中包含了用于特殊情况比较的汉字常量。

目前中文网页主流的编码为gbk和utf8两种编码。因此，我们做编码识别的前提是，编码不是gbk就是utf8.

编码自动识别的基本思想如下：

1.看给定的字节串是否符合utf8编码规则。如果不符合则为gbk编码。

2.如果给定的字节串中没有符合utf8三字节规则的，则为gbk编码。中文在utf8中占三个字节。

3.如果给定的字节串能对应上gbk编码中的中文，且无法对应上utf8编码中的中文，则为gbk编码。

4.特殊情况，特殊处理。如 “鏈條” 和 “瑷媄”。

总体思想是，先默认为utf8编码，再根据一些非utf8编码的情况逐步筛选。

准确率和效率还是不错的。20万多条query，1秒钟就可以处理完。

php代码如下：

function detect_encoding($str){
    $len = strlen($str);
    $encoding = "utf8";
    $is_utf8_chinese = false;
    for ($i = 0; $i < $len; $i++) { 
        if ( (ord($str[$i]) >> 7) > 0 ) { //非ascii字符
            if (ord($str[$i]) <= 191 ) {
                $encoding = "gbk0";
                break;
            } else if ( ord($str[$i]) <= 223 ) { //前两位为11
                if ( empty($str[$i+1]) or  ord($str[$i+1]) >> 6 != 2 ) { //紧跟后两位为10
                    $encoding = "gbk1";
                    break;
                } else {
                    $i += 1;
                }
            } else if ( ord($str[$i]) <= 239 ) { //前三位为111
                if ( empty($str[$i+1]) or  ord($str[$i+1]) >> 6 != 2 or empty($str[$i+2]) or  ord($str[$i+2]) >> 6 != 2) { //紧跟后两位为10
                    $encoding = "gbk2";
                    break;
                } else {
                    $i += 2;
                    $is_utf8_chinese = true;
                }
            } else if ( ord($str[$i]) <= 247 ) { //前四位为1111
                if ( empty($str[$i+1]) or  ord($str[$i+1]) >> 6 != 2 or empty($str[$i+2]) or  ord($str[$i+2]) >> 6 != 2 or empty($str[$i+3]) or  ord($str[$i+3]) >> 6 != 2) { //紧跟后两位为10
                    $encoding = "gbk3";
                    break;
                } else {
                    $i += 3;
                }
            } else if ( ord($str[$i]) <= 251 ) { //前五位为11111
                if ( empty($str[$i+1]) or  ord($str[$i+1]) >> 6 != 2 or empty($str[$i+2]) or  ord($str[$i+2]) >> 6 != 2 or empty($str[$i+3]) or  ord($str[$i+3]) >> 6 != 2 or empty($str[$i+4]) or  ord($str[$i+4]) >> 6 != 2) { //紧跟后两位为10
                    $encoding = "gbk4";
                    break;
                } else {
                    $i += 4;
                }
            } else if ( ord($str[$i]) <= 253 ) { //前六位为111111
                if ( empty($str[$i+1]) or  ord($str[$i+1]) >> 6 != 2 or empty($str[$i+2]) or  ord($str[$i+2]) >> 6 != 2 or empty($str[$i+3]) or  ord($str[$i+3]) >> 6 != 2 or empty($str[$i+4]) or  ord($str[$i+4]) >> 6 != 2 or empty($str[$i+5]) or  ord($str[$i+5]) >> 6 != 2 ) { //紧跟后两位为10
                    $encoding = "gbk5";
                    break;
                } else {
                    $i += 5;
                }
            } else {
                $encoding = "gbk6";
                break;
            }
        }
    }
 
    if ($is_utf8_chinese == false){
        $encoding = "gbk10";
    }
    if ($encoding == "utf8" && preg_match("/^[".chr(0xa1)."-".chr(0xff)."\x20-\x7f]+$/", $str) && !preg_match("/^[\x{4e00}-\x{9fa5}\x20-\x7f]+$/u", $str)) {
        $encoding = "gbk7";
    }
    //echo $encoding;
    if ($encoding == "utf8") {
        //echo "utf8";
        return ($str == "鏈條" || $str == "瑷媄")? $str: mb_convert_encoding($str, "gbk", "utf8");
    } else {
        //echo "gbk";
        return $str;
    }
}

记得代码最好在gbk编码中运行，因为代码中有汉字($str == “鏈條” || $str == “瑷媄”)比较。当然你可以在utf8编码中运行，只要把汉字处理下。

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

使用gettext来支持PHP的多语言（累计阅读 39,269）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,164）
Paypal接口详细代码(PHP版，非API接口) （累计阅读 19,408）
我的PHP，Python和Ruby之路（累计阅读 13,147）
include(“./file.php”)和include(“file.php”)区别（累计阅读 12,789）
15个最好的免费开源电子商务平台（累计阅读 12,541）
Redis消息队列的若干实现方式（累计阅读 12,088）
到底什么是MVC？（累计阅读 11,865）
整理了一份招PHP高级工程师的面试题（累计阅读 11,708）
Rolling cURL: PHP并发最佳实践（累计阅读 11,488）