区分一个包含汉字的字符串是 UTF-8 还是 GBK

云风的 BLOG 2010-07-07 14:48:25 累计浏览 4,129 次

本机暂存

内容概览

这篇讲的是中文开发中一个经典却容易踩坑的问题：当拿到一个包含汉字的字符串时，如何判断它到底是 UTF-8 编码还是 GBK 编码。

文章从实际开发中处理外部数据可能遇到的“乱码”现象出发，详细对比了这两种最常见的中文编码方案。它解释了核心差异：UTF-8 采用变长设计，汉字通常占 3 个字节且兼容 ASCII，而 GBK 是双字节定长编码。在此基础上，文章梳理了几种实用的检测思路，比如分析字节序列的分布特征、利用 BOM 标记，以及更稳健的基于字符编码范围的启发式判断方法。

最后，文章也点明了技术选型上的考量——UTF-8 作为国际标准和网络传输的首选，与 GBK 在特定传统系统、本地化场景中各自的优势，帮助开发者在理解底层原理后做出更合理的选择。

今天检查 svn 仓库，发现又有同学没按规定提交包含汉字的代码。我们规定，所有源文件中包含的汉字必须使用 UTF-8 编码方式，而不能使用 GBK 。

总这么人工检查也不是个事。所以我想写一个 svn 的钩子，在提交前检查。在仓库的 hooks/pre-commit.teml 加一行检查脚本应该就可以了。

我想用正则表达式匹配一下，可是想了想又觉得 UTF-8 和 GBK 的编码集有点交集，不太好做。btw, google 了一下，的确有人写过特定编码的正则表达式。

继续 google ，找到一篇跟我需求有点类似的文章UTF-8编码检测失败特例。看了正文，觉得不太靠谱，然后继续看回复，觉得这方法可行。

然后定睛一看，原来文章是孟岩写的，回复是我自己三年多前回复在他的 blog 上的。 -_-

打算还是自己写个小程序做检查，不用现成工具了。

具体算法复制回这里：

cloudwu 发表于2007-01-05 00:49:51 IP: 218.72.15.*

如果想区分一个完整的字符串是 GBK 还是 UTF8 其实蛮简单的。虽然做不到 100% 有效，但也比上面的方法强许多。

UTF8 是兼容 ascii 的，所以 0~127 就和 ascii 完全一致了。

gbk 的第一字节是高位为 1 的，第 2 字节可能高位为 0 。这种情况一定是 gbk ，因为 UTF8 对 >127 的编码一定每个字节高位为 1 。

另外，对于中文，UTF8 一定编码成 3 字节。(似乎亚洲文字都是，UTF8 中双字节好象只用于西方字符集)

所以型如 110***** 10****** 的，我们一概看成 gbk/gb2312 编码。这就解决了“位”的问题。

汉字以及汉字标点(包括日文汉字等)，在 UTF8 中一定被编码成：1110**** 10****** 10******

连续汉字数量不是 3 的倍数的 gb2312 编码的汉字字符串一定不会被误认为 UTF8 。用了一些gbk 扩展字，或是插入了一些 ascii 符号的字符串也几乎不会被认为是 UTF8 。

一般说来，只要汉字稍微多几个，gbk 串被误认为 UTF8 的可能性极其低。(只需要默认不使用 UTF8 中双字节表示的字符)可能性低，这里还有另外一个原因。UTF8 中汉字编码的第一个字节是 1110**** ，这处于汉字的 gb2312 中二级汉字(不常用汉字，区码从 11011000 开始)的编码空间。一般是一些生僻字才会碰上。

同分类推荐文章

从零重建 macOS 开发机：可复现的环境初始化流程（2026-06-14 20:36:00）
百度物理网络监控工具开源第二弹：毫秒级监控工具 baize，让你的网络问题无处遁形（2026-06-11 08:10:28）
How to Set Up Homebrew Tap for Private CLI Tools: A Complete Guide （2026-05-27 02:13:03）

查看更多 DevOps 文章 →

建议继续学习

vim几个小技巧（批量替换，列编辑）（累计阅读 37,517）
利用find和sed批量替换文件内容（累计阅读 11,460）
最近总结的一些技巧(vim,python,svn,fiddler等) （累计阅读 8,204）
字符编码和中文乱码小叙（累计阅读 7,119）
比较完美地解决了 vim 编辑中文的问题（累计阅读 6,823）
AWK介绍（累计阅读 6,709）
获取指定(访客)IP的所有信息，地址、邮政编码、国家、经纬度等的API （累计阅读 6,460）
中文编码杂谈（累计阅读 6,376）
正则表达式基础（累计阅读 6,316）
SVN Hook造成SVN提交速度慢的问题（累计阅读 6,283）