标签：乱码处理

共 2 篇相关文章

IT 累计浏览 1,878

java中文乱码解决之道（五）—–java是如何编码解码的

这篇文章深入到了Java虚拟机内部，剖析了字符编码解码的核心机制。作者从I/O操作和内存处理这两个乱码高发场景切入，详细拆解了Java如何处理字符与字节之间的转换。文章指出了一个关键点：乱码的“元凶”往往是编解码使用的字符集不一致。例如，在按字节读取UTF-8编码的文件时，若未在构造String时明确指定编码，Java会使用平台默认的GBK去解码，结果自然就乱了。更巧妙的是，文章揭示了字符流（如InputStreamReader）本质上只是一个“桥梁”，其底层仍在进行字节读取，并依靠指定的字符集完成解码。在内存操作部分，文章通过分析String.getBytes()与new String()的源码，展示了StringCoding.encode()和decode()方法的工作流程。特别指出了一个隐藏逻辑：如果没有指定编码，系统会先尝试平台默认编码，失败则回退到ISO-8859-1。理解这套内部流程，能帮你从根源上理解乱码问题。

IT 累计浏览 2,154

java中文乱码解决之道（四）—–java编码转换过程

这篇文章深入拆解了Java程序从编码到输出的完整数据流，帮你从根源上理解中文乱码的产生。作者从一个.java文件被编辑器保存开始讲起，系统默认编码（如GBK）决定了它的存储格式。接着，javac编译器会读取这个文件，将其转换为JVM内部统一的Unicode表示，并存入.class文件。真正的复杂性发生在运行时。文章细致地对比了三种典型场景：在命令行Console运行时，输入输出都依赖于操作系统的`file.encoding`；在Servlet/JSP中，容器接收客户端数据默认使用ISO-8859-1编码解码，输出时也默认按此编码发送，这就为中文传输埋下了隐患；而通过JDBC操作数据库时，驱动默认也会用ISO-8859-1来转换Unicode数据。通过拆解这一步步的编码“接力”，文章揭示了问题的核心：数据在不同环节流转时，如果使用的编码字符集不一致且未显式指定，乱码就必然发生。理解了这个从文件系统、编译器到运行时容器的全链路编码过程，你才能真正抓住解决Java中文乱码的“命门”，而不仅仅是记住几个转换代码的补丁。