标签：OCR

共 4 篇相关文章

IT 累计浏览 60

在macOS上用命令/脚本进行OCR提取文字内容

在macOS系统上进行OCR文字提取，可直接调用系统原生能力，实现速度快且识别效果较好，但要求系统版本为10.15或以上。文章主要介绍了两种具体实现路径：一是使用通过Homebrew安装的开源工具Tesseract，并提供了命令行示例，包括基础识别及结合`-l chi_sim`参数指定中文语言识别；二是使用Python库`ocrmac`，它是对macOS系统能力的封装，需要在虚拟环境中安装。文章给出了批量处理脚本及Python编程实例，重点分析了`ocrmac`库的关键参数配置：推荐使用`framework="livetext"`进行识别，该方式虽将结果拆分为单字符，但置信度高；同时需通过`language_preference`如`['zh-Hans']`明确指定中文，否则默认识别英文效果不佳。文中对比了不同`framework`与`recognition_level`参数组合下的识别差异，并最终提供了包含Tesseract、ocrmac、EasyOCR等在内的多个相关工具参考链接。

IT 累计浏览 1,519

浅析点对点(End-to-End)的场景文字识别

这篇讲的是用端到端深度学习模型来解决自然场景文字识别难题的技术。文章从实际应用中传统OCR流水线的痛点出发——通常需要先检测文字区域，再逐字切割、识别，流程复杂且误差容易累积。作者重点剖析了“端到端”模型的思路，即让一个神经网络直接从输入图像中直接预测出完整的文本序列。核心在于设计能同时处理空间信息（文字在哪）和字符信息（文字是什么）的网络结构，并采用如CTC或注意力机制等解码策略来对齐和输出结果。文中对比了不同模型在识别准确率和对复杂场景（如弯曲、艺术字体）适应性上的差异。这篇文章清晰地勾勒了端到端方法如何简化流程并提升鲁棒性，对于理解OCR技术的演进方向很有帮助。

IT 累计浏览 4,259

pytesser：图片验证码识别

这篇讲的是作者如何用pytesser这个Python库来解决图片验证码识别问题。文章从自动化测试或爬虫开发中遇到验证码阻碍的实际场景出发，介绍了pytesser作为Tesseract OCR引擎封装的实用工具。核心实现思路围绕图像预处理与字符识别两步展开。作者可能会演示如何用Python的图像处理库（如PIL）对验证码图片进行灰度化、二值化等操作，以提升识别准确率。一个巧妙的点在于，它并非直接识别，而是先通过调整图像对比度、去噪等方式简化特征，再调用底层的Tesseract引擎进行识别。文章通常会展示具体代码片段和运行效果。对于结构规整、干扰较少的标准验证码，pytesser的识别率或许不错；但对于扭曲、叠色或背景复杂的验证码，其局限性也很明显。作者借此传达的信息是：pytesser是一个轻量级的入门选择，适合处理特定类型的简单验证码，但面对高安全性的复杂验证码，则需要更专业的深度学习方案。

IT 累计浏览 2,708

Google Docs Ctrl + C 技术浅析

这篇讲的是，当在 Google Docs 中打开 PDF 并复制文本时，那看似简单的 Ctrl+C 背后，其实是一套相当复杂的实现。作者深入分析了浏览器中剪贴板事件的拦截与处理机制，揭示了 Google Docs 如何巧妙地利用这个接口来捕获用户的选择操作。具体来说，文章聚焦于浏览器环境下的技术栈。它剖析了文档应用如何通过监听 `copy` 事件，来获取用户选中的文本内容，并可能进行二次处理（例如格式转换或注入特定标识符），以确保复制到系统剪贴板的数据能被后续操作精准识别。这其中涉及到对浏览器默认行为的干预、事件对象的封装细节，以及跨应用（从Web应用到操作系统剪贴板）的数据传输逻辑。分析这个过程，不仅让我们看到一个常见功能背后的工程复杂度，也对理解 Web 剪贴板 API 的实际应用场景和限制有直观认识。对于前端开发者而言，其中关于事件控制的技巧，也值得在处理类似富文本或跨域数据交互时参考借鉴。