字符编码和中文乱码小叙

isnowfy 2012-12-24 22:43:04 累计浏览 7,123 次

本机暂存

内容概览

这篇讲的是字符编码从ASCII到UTF-8的演进历程，以及由此引发的中文乱码问题。作者从早期计算机只支持英文的ASCII编码说起，谈到欧洲语言扩展出的ISO8859-1，再到为解决中文等复杂文字而诞生的GB2312、GBK等国标编码，最后引出了致力于一统天下的Unicode及其存储实现UTF-8。

文章重点对比了在中文环境下最常见的两种编码：GBK和UTF-8。它指出了一个典型的“乱码陷阱”：Windows系统常用兼容GB2312的ANSI编码，而Linux等系统则普遍采用UTF-8。这种不一致，正是跨平台处理中文文件时频繁出现乱码的根源。

对于开发者，文章强调在编写Web程序时必须确保数据库、程序文件、网页声明（如``）以及数据库连接（如对MySQL执行`set names`）的编码统一。虽然文中以GBK为例说明了如何配置，但最终的建议是拥抱UTF-8——因为它已成为国际标准，与主流Linux服务器生态契合度更高，是更面向未来的稳妥选择。

记得刚使用ubuntu的时候，处理各种乱码神马的都是很麻烦的事情，后来开始写一些web程序的时候，中文编码的问题还是会不断的出现，于是对于web程序员来说，字符集编码已经是十分常见的问题了，但是如果不去系统的了解下，处理问题时还是会有些棘手的，这篇文章我就打算简单的介绍下这些问题。

最初学习计算机的话，首先接触的便是ASCII编码了，0是48，a是97啥的估计大家都记得很清楚吧，计算机中以8bit为一个byte，于是一个byte能表示256个数，ascii是用一个字节，并且第一位是0，也就是说只用了7个bit，于是ASCII只有128种表示，这对于英文系统是最够的了。但是欧洲很多字母和英文字母很不相同，于是为了扩展，第一位也纳入使用，这样就是ISO8859-1编码，又叫做latin-1，很多时候你不指定编码的时候，默认编码就是ISO8859-1，这是一个要注意的地方。

由于亚洲地区的文字不像欧洲那样用几个字母就可以了，于是亚洲各地区便有了自己的一些编码格式。对于中文编码而言，大家比较熟悉的就是GB2312编码，这是大陆地区推行的简体字的编码标准，而相应的台湾的繁体字用的是BIG5的繁体字编码，由于GB2312只有简体字，后来又进行了扩充，便有了GBK，他是GB2312的超集，就是说GB2312编码的字符，都可以用GBK的方式解读。后来又加入了少数民族的字体有了GB18030，不过这个貌似不如GBK应用广泛。

由于混乱的编码格式，造成了国际化的困难，于是便有了大有一统天下之势的unicode编码，对于各国文字符号等都会在unicode有一个统一的编码，但是unicode只是一种表示方式，但是却没有规定表示符号的这个数字应该如何在计算机上存储。而现在比较通行的存储方式是utf-8，utf-8是一种变长的编码方式。

所以对于中文字符而言，我们最常见的就是GBK和utf-8两种编码格式。对于windows而言用一种叫ANSI的编码格式，他是英文用ASCII编码，简体中文用GB2312编码，而linux等系统一般都会采用utf-8的编码方式，所以当你在linux下打开windows下的一些中文文本文件时会出现乱码的情况，就是因为本来应该是GB2312的编码方式，却用utf-8的格式来解读必然就会出现错误。

当写web程序时也要时刻注意编码的统一，也就是数据库里数据的编码，程序文件的编码，以及网页显示的编码（就是charset字段），以及他们之间的通信的编码方式。比如你是在windows写程序的话，默认的程序编码就是GBK，为了统一，你需要数据库也要改为GBK编码，网页上也要加上这样一句。

<meta http-equiv="content-type" content="text/html; charset=UTF-8" />

还有个需要注意的地方，就是当你使用的数据库是mysql时，默认的字符通信方式是ISO8859-1，你需要加上这样一句，来让通信字符也变为GBK，这样就能在网页上正常显示出汉字了。

mysql_query('set names gbk');

不过一般情况下还是推荐统一的去使用utf-8编码，一个原因是utf-8是一种大势所趋，另一个原因是现在大部分服务器都是linux，所以utf-8会有更好的兼容性。一般写程序时，处理字符的时候先把utf-8转成unicode来进行处理，因为unicode是定长的，所以当你转unicode之后，统计字的个数时也非常方便，然后当需要输出或者存储时在转换成utf-8方式，应该说这样的处理是一种很好的方式。

扩展阅读：
http://blog.jobbole.com/18269/
http://blog.kongxz.com/2010/03/utf8-iso8859-gb-cp936-etc/
http://blog.alphatr.com/about-char-coding.html
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
http://blog.csdn.net/garybrother/article/details/3988741

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

程序员技术练级攻略（累计阅读 35,491）
Hello! 404 （累计阅读 9,388）
优雅绝妙的Javascript跨域问题解决方案（累计阅读 8,072）
前端必须熟悉的10个CSS3属性（累计阅读 7,721）
前端开发中Cookie那些事儿（累计阅读 7,374）
比较完美地解决了 vim 编辑中文的问题（累计阅读 6,824）
如何寻找一个不会让你后悔的PHP开发框架（累计阅读 6,629）
获取指定(访客)IP的所有信息，地址、邮政编码、国家、经纬度等的API （累计阅读 6,461）
中文编码杂谈（累计阅读 6,383）
正则表达式基础（累计阅读 6,322）