关于MySQL的字符集

koyoz's blog 2009-11-15 18:30:28 累计浏览 2,817 次

本机暂存

内容概览

这篇从MySQL字符集转换的实际流程讲起，系统梳理了其设计意图与实用价值。作者首先通过客户端、连接层、存储层之间的转换示例，说明多字符集环境下的数据流转机制，并指出该设计主要服务于两类场景：支持不同客户端使用各自字符集，以及处理文件系统字符集映射。

文章重点探讨了字符集校验在中文环境下的尴尬处境。作者指出，对于排序需求，MySQL的字符集校验难以实现符合中文习惯的拼音排序，实际效果常等同于字节排序；而在LIKE操作中，多字节字符集也可能带来意外匹配。基于此，作者建议，若无需排序或文本搜索，直接使用BINARY、VARBINARY等二进制类型存储数据，不仅能避免不必要的字符集转换开销，还能提升操作效率。

此外，文章还提醒PHP开发者，应使用`mysql_set_charset()`而非`set names`来正确设置字符集，以防范因转义函数失效导致的安全漏洞。作者结合自身经历，强调了理解字符集处理细节对中日韩开发者的重要性，这也呼应了多字节字符集应用广泛而相关漏洞频发的现状。

MySQL的字符集处理是这样的：

1）发送请求
客户端(character_set_client）=》数据库连接(character_set_connection)=》存储(table,column)
2）返回请求
存储(table,column)=》数据库连接(character_set_connection )=》客户端(character_set_results)

在每一个非初始节点，都会做一次从上一个结点到当前节点的字符集转换操作。举个例子，有如下环境：
* character_set_connection utf-8
* character_set_results gbk
* character_set_client gb2312
* 有表A，字段字符集全部为BIG5

发送请求的时候，首先数据从gbk转换为utf-8，再转换为BIG5，然后再存储。
返回请求的时候，首先数据从BIG5转换为utf-8，再转换为gb2312，然后再发送给客户端。

这样的架构到底有什么用呢？

1）允许不同的客户端具有不同的字符集。典型的例子就是，我有一个utf-8的站点，这个站点就是一个charset client为utf-8的客户端。与此同时，我有可能需要在一个gbk的终端上读写数据库，这又是一个客户端，不过它的字符集是gbk。
2）通过数据库操作文件系统的时候，需要把文件路径转为文件系统的字符集。例如我的客户端是gbk，而服务器文件系统是utf-8。操作”/A片 /Rina.rmvb”，发送过去的数据里，“片”的数据和服务器是不一样的。这时候就需要有个办法可以把转换GBK的“片”到utf-8。在这里 MySQL引入了一个叫character_filesystem的东西来完成这个事情。

除此之外，我暂时想不到其他的作用了。但是仔细想想，我们真的需要这样的处理吗？很多网站，无非就是希望自己的数据能怎么进去就怎么出来。这里又有两种情况了。

1）希望可以根据数据进行排序或者做like操作。首先说排序，对于包含中文的字段来说，根据字符集排序的概念如同鸡肋。简体中文排序，一般都是希望按拼音来排序。我没有去真正了解过MySQL里的校验，但是从我接触过的程序来看，需要做此类排序，都是专门建一个存放拼音的字段来排序。而拼音又存在多音字的情况。如果是UTF-8，还存在某个区间的中文同时被中日韩三国共用的情况。实现起来不是这么容易，所以MySQL无论的GBK还是UTF-8的校验集应该都没有实现拼音。我敢说，现在国内使用MySQL的大多数网站，所用到的校验集，只是一个byte排序而已。而byte排序，根本不需要使用什么字符集。所以说对于中文站点，MySQL字符校验在排序上没任何意义。

但是在like操作上，倒是有了一点点意义。例如我like ‘%a%’，就有可能匹配到某个中文某个部分含有a。当然这种情况在utf-8下不会遇到，因为utf-8的存储格式导致a只可能是a，不可能是一个多字节字符的一部分。但是在其他字符集可能就会有这个问题了。说到最后，like又变得和order一样使得校验没意义了。晕倒。

2）如果完全不需要对数据进行排序，like或者全文检索，那么请停止使用char，varchar，text之类的吧。 binary，varbinary，BLOB才是正确的选择。binary之类的在存储，取出的时候都不会进行字符集转换，而在排序时候，只根据二进制内容排序，所以在效率上高出char，varchar，text很多。

这种情况更不需要字符集了。但是按照目前MySQL的架构，在client和connection之间的字符集操作，是忽略字段类型的，在这两个节点之间，依然会进行字符集转换。

说了这么多，我都不知道说什么了。本来是想说MySQL的字符集看似强大实则无用。但是写下来，发现勉强还有一点作用。另外前段时间想总结一下MySQL的字符集，不过没写完。

另外提一下PHP里的设置字符集。大家请不要再使用mysql_query(”set names utf8″)这样的语句了。mysql_set_charset()才是最完整的字符集设置方式。后者比前者多一个设置，就是把struct MySQL的charset成员也设置了。这个成员变量在escape的时候起着很重要的作用，特别是对于GBK这种运行把“\”作为字符一部分的编码格式。如果你只使用mysql_query(”set names XXX”)，那么在某些字符集，会有重大的安全漏洞，导致mysql_real_escape_string变得和addslashes一样不安全。

在计算机技术里，字符集是我很喜欢研究的一个东西。我接触的东西，我都希望把字符集处理方式弄清楚。这是因为我在3年前，对字符集完全不理解。对于完全不理解的东西，我总是很渴望去完全理解它。

BTW：随着各种多字节字符集的广泛应用，而在软件开发里人数比例非常高的操英文的程序员对多字节字符并不是很了解，这是最近几年很多漏洞都是多字节引起的一个原因。我们中日韩的程序员在这方面有优势！

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,251）
MySQL数据库在实际应用一些方面的介绍（累计阅读 36,398）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,164）
Mysql监控指南（累计阅读 21,351）
由浅入深探究mysql索引结构原理、性能分析与优化（累计阅读 16,523）
在Apache2.2.XX下安装Mod-myvhost模块（累计阅读 13,057）
15个最好的免费开源电子商务平台（累计阅读 12,541）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,907）
整理了一份招PHP高级工程师的面试题（累计阅读 11,708）
深入浅出INNODB MVCC机制与原理（累计阅读 9,693）