chenssy -- IT技术博客大学习 -- 共学习共进步！

首页 / chenssy

IT 2015-02-26 22:41:33 / 累计浏览 1,720

java中文乱码解决之道（七）—–JSP页面编码过程

这篇讲的是JSP页面开发中那个让人头疼的中文乱码问题，尤其是根源常常藏在JSP转换为Servlet的编码过程里。作者直接拆解了关键指令页中的两个编码参数：`pageEncoding`（JSP文件本身的编码）和`contentType`的`charset`（发送给客户端的编码）。文章核心梳理了转换过程的三次编码“变阵”：第一次JVM编译.jsp文件时，会依据`pageEncoding`或默认编码来读取源码；第二次生成.class文件时，所有内容都被统一转换成Unicode，之前的编码设置在此阶段无效；第三次业务处理后输出到浏览器，则由`contentType`的`charset`决定解码方式，否则会退回默认的ISO-8859-1。所以，中文乱码的伏笔其实在这几个阶段的配合中早已埋下。搞清楚每个阶段谁说了算，才能在实际开发中精准配置，避免字符“南辕北辙”。

IT 2015-02-14 14:21:22 / 累计浏览 4,180

java中文乱码解决之道（六）—–javaWeb中的编码解码

这篇深入分析了Java Web开发中最令人头疼的中文乱码问题，尤其聚焦于服务器与客户端交互的编码/解码链条。作者从用户发起请求的四种方式（URL直接访问、链接、表单GET/POST）切入，详细拆解了浏览器在编码URL路径和查询字符串时的差异——例如IE与Chrome/Firefox在处理同一段中文时，一个采用GBK而其他采用UTF-8，揭示了乱码产生的首要根源。文章的核心亮点在于源码级剖析。它追踪了Tomcat服务器接收请求后的解码流程，展示了`CoyoteAdapter`如何通过`connector.getURIEncoding()`获取`server.xml`中配置的编码集（如`UTF-8`）来解析URI，并默认使用`ISO-8859-1`处理未指定的字符。对于请求参数，则解析了`Request.parseParameters()`方法的调用时机与逻辑。这些底层实现解释了为何配置不当或浏览器行为不一致会导致乱码。最终，文章将整个过程归纳为“页面编码->服务器解码->业务处理->编码响应->客户端解码”的闭环，并强调在服务器-客户端交互环节集中设置正确的编码是解决问题的关键。对于需要彻底理清Java Web中文乱码链条的开发者而言，这是一份从现象到原理的清晰指南。

IT 2015-02-14 14:17:28 / 累计浏览 1,840

java中文乱码解决之道（五）—–java是如何编码解码的

这篇文章深入到了Java虚拟机内部，剖析了字符编码解码的核心机制。作者从I/O操作和内存处理这两个乱码高发场景切入，详细拆解了Java如何处理字符与字节之间的转换。文章指出了一个关键点：乱码的“元凶”往往是编解码使用的字符集不一致。例如，在按字节读取UTF-8编码的文件时，若未在构造String时明确指定编码，Java会使用平台默认的GBK去解码，结果自然就乱了。更巧妙的是，文章揭示了字符流（如InputStreamReader）本质上只是一个“桥梁”，其底层仍在进行字节读取，并依靠指定的字符集完成解码。在内存操作部分，文章通过分析String.getBytes()与new String()的源码，展示了StringCoding.encode()和decode()方法的工作流程。特别指出了一个隐藏逻辑：如果没有指定编码，系统会先尝试平台默认编码，失败则回退到ISO-8859-1。理解这套内部流程，能帮你从根源上理解乱码问题。

IT 2015-02-06 22:12:17 / 累计浏览 2,120

java中文乱码解决之道（四）—–java编码转换过程

这篇文章深入拆解了Java程序从编码到输出的完整数据流，帮你从根源上理解中文乱码的产生。作者从一个.java文件被编辑器保存开始讲起，系统默认编码（如GBK）决定了它的存储格式。接着，javac编译器会读取这个文件，将其转换为JVM内部统一的Unicode表示，并存入.class文件。真正的复杂性发生在运行时。文章细致地对比了三种典型场景：在命令行Console运行时，输入输出都依赖于操作系统的`file.encoding`；在Servlet/JSP中，容器接收客户端数据默认使用ISO-8859-1编码解码，输出时也默认按此编码发送，这就为中文传输埋下了隐患；而通过JDBC操作数据库时，驱动默认也会用ISO-8859-1来转换Unicode数据。通过拆解这一步步的编码“接力”，文章揭示了问题的核心：数据在不同环节流转时，如果使用的编码字符集不一致且未显式指定，乱码就必然发生。理解了这个从文件系统、编译器到运行时容器的全链路编码过程，你才能真正抓住解决Java中文乱码的“命门”，而不仅仅是记住几个转换代码的补丁。

IT 2015-02-06 22:10:40 / 累计浏览 2,120

java中文乱码解决之道（三）—–编码详情：伟大的创想—Unicode编码

中文乱码问题的根源往往在于不同编码体系的碰撞。这篇文章聚焦于编码史上的关键一步——Unicode编码的诞生与核心设计。作者从各国各自为政的编码方案导致的信息混乱讲起，解释了Unicode如何以“字符大容器”的理念，为全球每个字符赋予唯一二进制编码，从根本上为跨语言、跨平台文本处理铺平了道路。文章并未止步于概念，而是深入剖析了Unicode的实现细节。它重点对比了UTF-8、UTF-16、UTF-32等主流转换格式，并着重讲解了当前最流行的UTF-8编码。通过汉字“严”的编码实例，清晰展示了Unicode码点到UTF-8变长字节序列的转换规则。此外，文中还探讨了字节序（大端/小端）问题及其标识方法，并借助Windows记事本中同一字符在不同编码（ANSI、Unicode、UTF-8）下的十六进制存储对比，直观地揭示了它们在实际存储中的差异。

IT 2015-02-06 22:09:37 / 累计浏览 2,940

java中文乱码解决之道（二）—–字符编码详解：基础知识 + ASCII + GB**

这篇讲的是字符编码的“地基”怎么打。作者从计算机如何存储文字这个最基本的问题出发，系统梳理了编码、字符、字符集这些核心概念，重点对比了为西欧语言设计的ASCII和为汉字设计的GB系列编码的根本差异。 ASCII用1个字节表示128个字符，完美覆盖英语字母和符号。但汉字数量庞大，ASCII的“小房子”根本住不下。于是中国的GB2312标准采用双字节编码，用“两个大于127的字节”组合出超过6000个常用汉字，还巧妙兼容了ASCII。随后GBK和GB18030不断扩展，GB18030更采用单字节、双字节、四字节混合编码，终于将少数民族文字等也纳入其中，成为国家强制标准。文章清晰地展示了编码标准如何随着需求而演进，从ASCII的128个字符到GB18030的庞大字符集，核心就是解决“如何用有限的数字组合，表示世界上尽可能多的文字”。这种从基础出发的梳理，能帮你彻底理解中文乱码的历史根源。

IT 2015-02-06 22:08:04 / 累计浏览 3,700

java中文乱码解决之道（一）—–认识字符集

这篇讲的是Java开发中常见的中文乱码问题，但它并没有直接跳进解决方案，而是从更底层的字符编码原理出发。作者从计算机如何识别和存储文字讲起，解释了为什么不同编码体系（如ASCII、GB2312、GBK、Unicode）会共存，以及Java内部使用Unicode编码与外部环境交互时，编码转换步骤出错是产生乱码的根本原因。文章对几种关键编码做了通俗的对比：ASCII用一个字节处理西欧字符；GBK和GB18030通过双字节或可变字节方案扩展了中文支持，解决了生僻字显示问题；而Unicode（特别是UTF-8）则以变长编码实现了跨语言、跨平台的统一标准。作者点明了UTF-8是当前互联网上最主流的Unicode实现方式。作为系列开篇，本文的目标是先帮读者建立对字符集的清晰认识，为后续具体排查和解决乱码问题打下基础。内容虽然涉及不少编码细节，但讲解循序渐进，适合遇到此类问题想探本溯源的开发者。