标签：Unicode

共 15 篇相关文章

IT 累计浏览 2,649

在Linux下搜索包含特定字符串的文件列表

这篇讲的是在Linux下搜索文件内容时，一个很实际的踩坑经历。作者原本习惯用 `find . |xargs grep` 来查找包含目标文字的文件，这个组合拳在大多数情况下都很好用。但最近他发现了一个盲区：当要搜索的字符串是Unicode编码时，这个方法会失效，导致查找不到。问题的根因在于，`grep` 默认处理的是本地编码（如ANSI），对于以Unicode形式存储的字符串无能为力。作者分享了他的解决方案：将命令替换为 `find . |xargs strings -e l -f |grep "文字"`。这里的关键是利用了 `strings` 命令。其中，`-e l` 参数专门用于从二进制文件中提取Unicode字符串，而 `-f` 参数则会在每个匹配的字符串前打印出文件名，方便直接定位。这样，通过一个巧妙的管道组合，就解决了原先的编码识别问题，让文件内容搜索在混合编码环境下依然可靠。

IT 累计浏览 2,075

清官谈mysql中utf8和utf8mb4区别

这篇文章对比了MySQL中两种常见的字符编码：utf8与utf8mb4。作者从实际存储问题出发，解释了核心差异：MySQL的utf8编码最大仅支持3个字节的UTF-8字符，因此无法存储Emoji表情、部分生僻汉字等占用4个字节的Unicode字符，插入时可能导致异常。而utf8mb4作为其超集，专门用于兼容这类四字节字符。文章进一步追溯了问题根源，指出这与MySQL早期设计时Unicode尚未扩展辅助平面有关，当时的utf8被限制为最多3个字节。作者建议，尽管utf8在多数情况下足够且更节省空间，但为了更好的兼容性和前瞻性，应始终优先使用utf8mb4字符集（需MySQL 5.5.3以上版本）。同时，他提到使用utf8mb4时，对于CHAR类型数据会额外消耗空间，官方推荐使用VARCHAR类型进行替代。

IT 累计浏览 2,157

java中文乱码解决之道（三）—–编码详情：伟大的创想—Unicode编码

中文乱码问题的根源往往在于不同编码体系的碰撞。这篇文章聚焦于编码史上的关键一步——Unicode编码的诞生与核心设计。作者从各国各自为政的编码方案导致的信息混乱讲起，解释了Unicode如何以“字符大容器”的理念，为全球每个字符赋予唯一二进制编码，从根本上为跨语言、跨平台文本处理铺平了道路。文章并未止步于概念，而是深入剖析了Unicode的实现细节。它重点对比了UTF-8、UTF-16、UTF-32等主流转换格式，并着重讲解了当前最流行的UTF-8编码。通过汉字“严”的编码实例，清晰展示了Unicode码点到UTF-8变长字节序列的转换规则。此外，文中还探讨了字节序（大端/小端）问题及其标识方法，并借助Windows记事本中同一字符在不同编码（ANSI、Unicode、UTF-8）下的十六进制存储对比，直观地揭示了它们在实际存储中的差异。

IT 累计浏览 3,787

java中文乱码解决之道（一）—–认识字符集

这篇讲的是Java开发中常见的中文乱码问题，但它并没有直接跳进解决方案，而是从更底层的字符编码原理出发。作者从计算机如何识别和存储文字讲起，解释了为什么不同编码体系（如ASCII、GB2312、GBK、Unicode）会共存，以及Java内部使用Unicode编码与外部环境交互时，编码转换步骤出错是产生乱码的根本原因。文章对几种关键编码做了通俗的对比：ASCII用一个字节处理西欧字符；GBK和GB18030通过双字节或可变字节方案扩展了中文支持，解决了生僻字显示问题；而Unicode（特别是UTF-8）则以变长编码实现了跨语言、跨平台的统一标准。作者点明了UTF-8是当前互联网上最主流的Unicode实现方式。作为系列开篇，本文的目标是先帮读者建立对字符集的清晰认识，为后续具体排查和解决乱码问题打下基础。内容虽然涉及不少编码细节，但讲解循序渐进，适合遇到此类问题想探本溯源的开发者。

IT 累计浏览 6,371

中文编码杂谈

这篇文章从程序员常遇到的中文乱码问题讲起，探讨了GBK、GB2312、UTF-8等编码方案的历史渊源和设计原理。作者并没有停留在“乱码是因为编码不匹配”这种表面结论，而是深入对比了这些编码方案在字符集范围、空间效率和兼容性方面的关键差异。例如，GBK用双字节表示汉字以节省空间，而UTF-8则用变长编码兼容ASCII；GB2312是早期国家标准，覆盖汉字有限，而GBK是其扩展。文章还指出了在特定场景下的选择依据：对内网遗留系统或Windows中文环境，GBK可能更直接；而对于需要处理多国语言或面向互联网的新项目，UTF-8的通用性和无歧义性是首选。整篇杂谈梳理了编码混乱的技术根源，帮读者厘清了不同方案的适用边界，对于理解和处理日常开发中的编码问题提供了扎实的参考。

IT 累计浏览 5,239

Unicode与字符汉字相互转换

这篇讲的是如何在编程中处理Unicode编码与中文字符的相互转换，一个看似简单却暗藏“坑点”的常见任务。作者从开发者在处理多语言文本时频繁遇到的编码问题出发，详细拆解了从Unicode码点（如U+4E2D）到“中”字，以及反向转换的完整过程。文章对比了多种转换路径：使用标准库函数（如Python的chr()/ord()）的便捷性，处理UTF-16编码时涉及“代理对”的复杂情况，以及手动查表实现的灵活性与局限。关键差异在于，直接使用内置函数代码最简洁，但在处理补充平面字符（如一些生僻字或emoji）或进行底层编码操作时，就需要理解UTF-16的代理对机制。作者进一步指出，在性能敏感的场景下，预生成码点-字符映射表可能比逐次转换更高效。同时，转换过程中对不可见字符（如零宽空格）和无效序列的稳健处理，是保证文本处理程序鲁棒性的细节。文章最终将重点落回实际应用，帮助读者在面对日志分析、文本清洗或国际化开发时，能根据具体场景选择最合适的转换策略，避免因编码错误导致的乱码或程序异常。

IT 累计浏览 3,484

PHP正则匹配字符串中的标签

这篇讲的是PHP正则表达式在处理混合了中文、英文、数字的复杂字符串时，如何精准匹配其中的标签。问题的核心在于，PHP的PCRE扩展并不支持像Perl那样的 `\U`、`\P`、`\L` 这类方便的Unicode字符串修饰符。这导致在直接用 `\w` 等简写元字符时，无法可靠地匹配包含中文在内的所有“单词”字符。作者从这个实际痛点出发，给出了明确的解决方案：放弃简写，转而使用16进制编码或Unicode转义序列来显式定义中文字符的范围。文章详细展示了具体的实现方式，比如用 `\x{4e00}-\x{9fa5}` 来覆盖常用的中日韩统一表意文字。这种方法虽然写起来稍微繁琐一些，但能确保正则引擎在匹配时将中文字符正确识别，避免出现漏匹配或误匹配的问题。文末还附有可供直接参考的范例代码，帮助读者快速将这一技巧应用到自己的项目中。

IT 累计浏览 3,740

让Json更懂中文(JSON_UNESCAPED_UNICODE)

这篇讲的是PHP开发中一个常见但又恼人的小坑：用`json_encode`处理中文字符串时，得到的是一串`\\uXXXX`形式的转义符，既不可读也无形中增大了数据体积。作者直接从这个具体现象切入，解释了这是PHP JSON编码的默认行为所导致。文章的核心解决方案简洁有力：为`json_encode`函数传入`JSON_UNESCAPED_UNICODE`标志位。这个常量能强制编码器保留原始Unicode字符，而不是进行转义。这样一来，输出的JSON中中文就是清晰可读的，同时也避免了因转义而产生的额外字节。对于需要频繁传输或存储中文数据的场景，这个技巧非常实用。它不仅提升了日志、调试信息的可读性，在接口响应或缓存数据中也能有效减小序列化后的体积，算是一个“一招解千愁”的实用知识点。

IT 累计浏览 3,776

json_encode数组出现unicode \uxxxx的解决方案

作者在开发微博应用时发现了一个常见但棘手的问题：PHP的`json_encode`函数默认将中文字符编码为Unicode转义序列（`\uXXXX`），这虽然保证了跨页面传输时不会出现乱码，但每个汉字会膨胀成6个字符（`\u`加4位十六进制数），显著增加了JSON数据的体积，对于需要频繁通信的前端应用并不友好。问题的根源在于PHP默认使用了不包含中文字符集的JSON编码设置。作者没有简单接受这一默认行为，而是寻找了更优的解决方案。其核心思路是绕过`json_encode`的默认处理，通过自定义编码方式来保持中文字符的直接可读性，从而有效缩减了传输数据量。这篇分享不仅指出问题，更给出了一个在实际项目中验证过的具体处理方法。对于追求接口性能和数据精简度的开发者而言，了解如何控制`json_encode`的输出格式，是一个值得掌握的实用技巧。

IT 累计浏览 5,250

UTF-8编码中BOM的检测与删除

这篇讲的是UTF-8文本中一个看似微小却可能带来麻烦的细节：BOM（字节顺序标记）的检测与处理。作者从BOM的基本概念切入，解释了它作为Unicode字符，本意是标识文件的字节序与编码类型，但在UTF-8环境下，这个额外的三字节标记往往会导致解析错误或显示异常。文章的核心价值在于，它清晰地指出了BOM在UTF-8场景中的“身份矛盾”——它本非UTF-8所必需，却可能被某些编辑器或程序误添加。作者不仅说明了问题根源，更直接提供了具体的检测思路和删除方案，帮助开发者在遇到文件被莫名添加空行、脚本执行出错或数据解析异常时，能够快速定位并解决这个隐蔽的编码陷阱。对于需要处理多来源文本数据的开发者来说，这是一份实用的排查指南。

IT 累计浏览 2,763

RMB符号的几种显示方式

这篇讲的是人民币符号"¥"在数字世界里如何被正确显示。作者从开发者经常遇到的“¥”符号显示异常这个问题出发，对比了几种常见的实现路径。文章首先分析了传统做法——直接使用 ASCII 字符集中的 "¥" 字符（U+00A5）。这个方式在旧系统里很常见，但一旦遇到现代 Web 环境或复杂字体，就容易显示为错误的字符或乱码，其根本原因在于字符编码的不兼容。接着，文章探讨了更稳健的现代方案：采用 Unicode 标准中的专用符号（U+FFE5）。这个字符专门为人民币符号设计，在绝大多数现代操作系统、浏览器和字体中都能被精准渲染。文章还提到了第三种方式：通过使用特定的无衬线字体或采用字符图形的方式进行绘制，这种方法更适用于对显示效果有极端要求的设计场景。通过对比，文章清晰地揭示了，选择正确的 Unicode 字符（U+FFE5）是确保“¥”在全平台一致显示的关键。这不仅仅是字符选择的问题，更涉及到字符编码、字体渲染和跨平台兼容性这一整套底层逻辑。对于前端开发者和设计人员来说，理解这些差异能有效避免一个看似微小却影响用户体验的“显示陷阱”。

IT 累计浏览 3,033

繁体中文的混合排版

这篇讲的是网页中文排版中一个具体而微妙的实践：简体与繁体的混合使用。作者从设计界对中文简繁体表现的争论出发，提出了一个实际的解决方案——在页面排版中混合使用简繁中文，比如大标题采用繁体，正文使用简体。他通过自己个人网站的实验进行了验证。测试发现，在Safari环境下，使用11px的Arial英文与32px的细明体（MingLiU）繁体中文混排时，视觉效果优于纯简体。尤其像“互聯網產品設計”这样的标题，繁体字在足够大的字号下笔画显得更为饱满优美。作者还分享了具体技术细节，比如在导航文字上叠加1像素、#ccc颜色的text-shadow阴影，以增强特定风格。不过，作者也坦诚指出，这种尝试目前更多属于个人风格探索，在需要考虑通用性和系统模板限制的商业项目中实施难度较大。文章结尾，他提到受中文强调用“点”的启发，未来还打算尝试更多能体现中文特色的排版细节。这为设计师处理中英文混排问题，提供了一个有趣且可动手验证的新思路。

IT 累计浏览 2,980

人民币的符号的正确表示法？一杠？两杠？￥还是yen呢？

这篇讲的是开发者在处理涉及金额的项目时，如何正确表示人民币符号。作者从实际遇到的“一杠”还是“两杠”、“¥”还是“yen”的困惑出发，深入辨析了这些符号背后的区别。文章的核心对比了人民币符号（¥）与日元符号（¥，通常写作yen）的相似性和本质差异。它点明了关键的技术细节：在Unicode编码和HTML实体中，人民币与日元共用同一个字符（U+00A5），但在大多数字体中，人民币符号应显示为“两横”（而非日元的“一横”），这是区分两者的视觉关键。同时，文章也澄清了在正式文档、财务凭证和数字代码中应当如何规范使用。最终，这篇短文为开发者提供了一个清晰的实践指南：在中文语境和财务场景下，应使用带两横的“¥”符号（或对应的HTML实体¥，但需注意字体渲染）；而在英文语境中直接指代人民币时，使用“CNY”（ISO货币代码）则更为精准和国际化，避免了视觉混淆和歧义。

IT 累计浏览 3,040

根据16进制输出所有汉字

这篇讲的是字符编码这个“底层建筑”在早期技术探索中的一个缩影。作者从看似基础的“如何用十六进制输出所有汉字”这个问题出发，实际上带我们走了一趟中文字符编码的演进小径。文章从GBK等早期编码方案讲起，揭示了它们用两个字节表示一个汉字的原理。但真正的核心在于Unicode标准的引入——它用一个十六进制的“码点”来统一标识世界上几乎所有的字符。作者演示了如何通过码点范围（比如从`0x4E00`到`0x9FFF`）遍历输出基本汉字区，并进一步探讨了更庞大的CJK统一表意文字区。文章最巧妙的部分在于实现思路：不仅展示了直接循环码点的方法，还点明了通过字节模式（如GBK）进行位操作来解码输出汉字的底层逻辑。这其实触及了编码转换的核心——不同编码本质上是同一字符的不同字节表示。读完这篇，你会对日常接触到的UTF-8为何能“通吃”全球文字，有一个从十六进制码点到最终字节序列的直观理解。

IT 累计浏览 3,100

字符与字节

这篇文章深入探讨了字符与字节在计算机科学中的核心区别，这是编程和数据处理中一个常见却容易混淆的基础概念。作者从文本表示的底层逻辑出发，首先明确了字符作为人类可读文本的抽象单位（如Unicode码点），而字节作为计算机存储和传输的二进制单元。关键差异体现在字符集与编码方式上：例如，Unicode提供了全球统一的字符标识，而UTF-8、UTF-16等编码则决定了这些标识如何映射为字节序列。文章对比了多种编码的特性，如ASCII仅用单字节表示英文字符，UTF-8采用变长编码兼顾多语言兼容性和空间效率，UTF-16则在某些系统中提供更固定的长度处理。在实际应用中，文章指导读者根据场景选择处理层级：字符操作适用于高层任务如字符串解析、用户界面渲染或国际化支持；字节操作则在底层场景如文件读写、网络协议传输或加密解密中至关重要。通过具体案例，文章揭示了错误编码可能导致的乱码、数据