OCR技术发展综述与达观数据的实践经验 (www.52nlp.cn)
光学字符识别OCR技术(Optical Character Recognition)是指从图像中自动提取文字信息的技术。这项技术横跨了人工智能里的两大领域:CV(计算机视觉)和NLP(自然语言处理),综合使用了这两大领域中的很多技术成果。

在过往40余年的技术发展历程中,OCR始终具备很强的产业应用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域。近年来OCR技术已经在工业界成熟落地应用,学术界里对此的研究热度反而弱于其他方向。甚至有人认为OCR技术已经充分成熟,没有更多研究必要了。然而随着近年来智能文本处理IDP(Intelligent Document Processing)在工业界的逐步落地应用,OCR和IDP相结合的应用场景越来越多,用语义理解NLP的角度进一步去延伸OCR的应用,出现了很多更有产业应用价值的场景。本文回顾了OCR技术的发展历程,并结合达观数据在工程实践方面的经验,介绍与语义分析技术结合后,当前OCR技术的一些最新发展和落地经验。
by @技术头条 2022-12-10 22:41 查看详情
如何在 VSCode 中自动缩进你的代码 (linux.cn)
代码中的缩进指的是你在代码行的开头处的空格。像其他代码编辑器和 IDE 一样,VSCode 允许你自动缩进你的代码。
by @技术头条 2022-12-10 22:36 查看详情
如何在 16 位系统上进行 64 位数学运算 (linux.cn)
只要对汇编有一点基本的了解,这些函数就能扩展到任意位长的整型数学运算。

几年前,作者为 FreeDOS 写了一个叫做 VMATH 的命令行数学程序。它只能在很小的无符号整型上执行十分简单的数学运算。随着近来 FreeDOS 社区里对基础数学的兴趣,作者改进了 VMATH 使其可以为有符号 64 位整型提供基本的数学支持。

仅使用 16 位 8086 兼容的汇编指令来操控大型数字的过程并不简单。作者希望能够分享一些在 VMATH 中用到的技术例子。其中一些方法掌握起来相当容易。而另外一些方法则看起来有点奇怪。你甚至可能学到一种进行基本数学运算的全新方式。
by @技术头条 2022-12-10 22:36 查看详情
了解 Lua 的 for 循环 (linux.cn)
了解 for 循环结构和你在控制它时拥有的选项,这样你可以对如何在 Lua 中处理数据做出聪明的决定。

在编程中,迭代是一个重要的概念,因为代码通常必须多次扫描一组数据,以便它可以单独处理每个项目。控制结构使你能够根据通常在程序运行时动态建立的条件来指导程序的流程。不同的语言提供不同的控制,在Lua中,有while循环、for循环和repeat until循环。本文介绍for循环。
by @技术头条 2022-12-10 22:35 查看详情
Apache Doris在美团外卖数仓中的应用实践 (tech.meituan.com)
美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。
by @技术头条 2022-12-10 22:32 查看详情
美团弹性伸缩系统的技术演进与落地实践 (tech.meituan.com)
弹性伸缩具有应突发、省成本、自动化的业务价值。平台侧将各业务零散、闲置资源进行整合,形成一个大规模资源池,通过弹性调度、库存管控技术在公司运营成本和业务体感中寻求较好的平衡。本文将介绍弹性伸缩系统落地过程中面临的技术挑战、推广以及运营层面的一些思考。
by @技术头条 2022-12-10 22:31 查看详情
图技术在美团外卖下的场景化应用及探索 (tech.meituan.com)
在外卖广告CTR预估建模中,我们依托图技术在场景化上进行了一系列探索。本文首先介绍了使用图网络技术的出发点,然后从特征层面的抽象图关系到子图扩展以及场景感知子图,逐步介绍如何使用图技术建模业务问题,并针对联合训练的线上服务细节及效果进行解释和分析,希望能给从事相关工作的同学带来一些帮助或启发。
by @技术头条 2022-09-13 23:34 查看详情
TLS指纹分析研究(上) (blog.nsfocus.net)
TLS协议已经成为互联网上最流行的协议,以确保网络通信免受干扰和窃听。TLS被用于加载Firefox浏览器中超过70%的网页,随着越来越多的网站、服务和应用程序切换到TLS,其应用将继续增长。

由于网络管理人员可以识别和阻止自定义协议,很多恶意工具已经转向使用现有协议,TLS的流行为这些恶意工具提供了一个很好的选择,使用TLS协议的恶意工具可以将其流量隐藏在大量web浏览器和其他TLS的合法覆盖流量中以逃避检测。

本文分享一篇指纹数据分析的论文,通过收集和分析9个月内超过110亿个真实的TLS连接流量,从白流量的角度给出一些结论,希望给研究人员带来一些思考。
by @技术头条 2022-09-13 23:33 查看详情
Unix 历史:一个伟大作品的诞生 (linux.cn)
本文是关于 Unix 及其起源的简短回忆。

Unix 是少数具有独到思想并致力于解决问题的人取得的非凡成就。如果考虑到在创建操作系统当时可用的计算能力和内存量,这个操作系统简直就是一件艺术品。

几十年来,所有这些一步步的进步,最终使我们走到了今天。无论有多少内核、操作系统和以编程语言形式出现的抽象概念,就其本质而言,它们都始于一个单一的来源。

我一直认为程序或代码是人类的思想,是你的逻辑、想法,只是写在 “IF-ELSE” 语句中,以实现一些现实世界的结果。
by @技术头条 2022-09-13 23:30 查看详情
GraphQL及元数据驱动架构在后端BFF中的实践 (tech.meituan.com)
GraphQL是Facebook提出的一种数据查询语言,核心特性是数据聚合和按需索取,目前被广泛应用于前后端之间,解决客户端灵活使用数据问题。本文介绍的是GraphQL的另一种实践,我们将GraphQL下沉至后端BFF层之下,结合元数据技术,实现数据和加工逻辑的按需查询和执行。这样不仅解决了后端BFF层灵活使用数据的问题,这些字段加工逻辑还可以直接复用,大幅度提升了研发的效率。本文介绍的实践方案已经在美团部分业务场景中落地,并取得不错效果,希望这些经验能够对大家有帮助。
by @技术头条 2022-09-13 23:28 查看详情
提升资源利用率与保障服务质量,鱼与熊掌不可兼得? (tech.meituan.com)
美团Hulk调度系统团队在集群服务质量与资源利用率运营的长期落地实践中,基于业务实际场景,自主设计研发了集群负载自动调控系统(LAR)以及配套的运营体系,在提升集群整体资源利用率的同时保障了业务服务质量。本文介绍了LAR的设计理念、基本框架以及核心设计,并结合在线和混部场景应用展开思考,并展示了部分落地成果。希望能为从事相关工作的同学带来一些启发或者帮助。
by @技术头条 2022-09-13 23:27 查看详情
智能搜索模型预估框架Augur的建设与实践 (tech.meituan.com)
本文将与大家探讨美团搜索与NLP部使用的统一在线预估框架Augur的设计思路、效果、优势与不足,希望对大家有所帮助或者启发。
by @技术头条 2022-09-12 22:41 查看详情
基于AI算法的数据库异常监测系统的设计与实现 (tech.meituan.com)
美团数据库平台研发组,面临日益急迫的数据库异常发现需求,为了更加快速、智能地发现、定位和止损,我们开发了基于AI算法的数据库异常检测服务。本文从特征分析、算法选型、模型训练与实时检测等维度介绍了我们的一些实践和思考,希望为从事相关工作的同学带来一些启发或者帮助。
by @技术头条 2022-09-12 22:41 查看详情
设备指纹技术介绍与综述(二) (blog.nsfocus.net)
繁荣的物联网生态构建于物联网设备的发展之上,然而广泛部署的海量设备却给设备识别与监管带来了挑战。本文对基于行为的设备指纹技术依照用途、目标设备、信息来源、评估技术进行介绍。
by @技术头条 2022-09-12 22:40 查看详情
向量数据库入坑:传统文本检索方式的降维打击,使用 Faiss 实现向量语义检索 (soulteary.com)
在上一篇文章[《聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss》]中,我们有聊到如何快速入门向量检索技术,借助 Meta AI(Facebook Research)出品的 faiss 实现“最基础的文本内容相似度检索工具”,初步接触到了“语义检索”这种对于传统文本检索方式具备“降维打击”的新兴技术手段。有朋友在聊天中提到,希望能够聊点更具体的,比如基于向量技术实现的语义检索到底比传统文本检索强多少,以及是否有局限性,能不能和市场上大家熟悉的技术产品进行一个简单对比。那么,本篇文章就试着从这个角度来聊聊。
by @技术头条 2022-09-12 22:39 查看详情
全球IPv4 AS拓扑测绘初探 (blog.nsfocus.net)
网络拓扑测绘是网络空间测绘中的关键一环,主要体现了网络空间中资源之间的物理和逻辑通联关系。根据OSI七层网络体系结构分,有物理层的光纤、电缆拓扑,数据链路层的二层交换机拓扑,网络层的路由器拓扑,应用层的服务拓扑等等。本文主要考虑网络层的AS(Autonomous System,自治域)级拓扑,面向全球IPv4地址空间自治域编号,研究其注册、分配、使用现状,为后续重点关注地区网络拓扑测绘提供数据和技术支撑。
by @技术头条 2022-09-12 22:39 查看详情
与日俱进,在 Go 1.20 中这种高效转换的方式又变了 (colobu.com)
在 Go 1.19 的开发中, string.SliceHeader和string.StringHeader经历了一个生死存亡的争斗,这两个类型一度被标记为弃用(deprecated),但是这两个类型经常用在 slice of byte 和 string 高效互转的场景中,如果被标记为弃用,但是目前还没有可替代的方法,所以这两个类型又把弃用标记去掉了,如无意外,它们也会在 Go 1.20 再次被标记为弃用。
by @技术头条 2022-09-12 22:38 查看详情
10 大可以摧毁你的 Linux 的命令 (linux.cn)
什么是最危险的 Linux 命令?

有人无数次问我这个问题,我一直避免回答,因为没有一个明确的危险的 Linux 命令清单。

你拥有的工具使你能够控制和修改你的操作系统的每一个方面。我不是想吓唬你,但如果你不熟悉这些命令和工具,你可以很容易地把你的系统摧毁。
by @技术头条 2022-09-12 22:37 查看详情
如何在笔记本电脑合盖时不挂起 Ubuntu (linux.cn)
如果你在笔记本电脑上使用 Ubuntu,你可能已经注意到当你合上盖子时系统处于挂起状态。

这是预期的行为。它可以节省电池和你的工作。你掀开盖子,系统唤醒,你可以登录并继续工作。

这一切听起来都不错,除非你使用多显示器设置。像我这样的一些人更喜欢关闭笔记本电脑,只使用外接显示器。

但是,如果关闭笔记本电脑盖会挂起系统,那么会产生问题。

让我告诉你如何改变这种行为。
by @技术头条 2022-09-12 22:36 查看详情
向量数据库入坑指南:聊聊来自元宇宙大厂 Meta 的相似度检索技术 Faiss (soulteary.com)
我们日常使用的各种 APP 中的许多功能,都离不开相似度检索技术。比如一个接一个的新闻和视频推荐、各种常见的对话机器人、保护我们日常账号安全的风控系统、能够用哼唱来找到歌曲的听歌识曲,甚至就连外卖配送的最佳路线选择也都有着它的身影。相信很多同学是第一次听说它,或者只知道它的大名,而不知该如何使用它。本篇文章,我们就来聊聊 faiss,分享这个“黑科技”是如何发挥神奇的“魔法”的。
by @技术头条 2022-09-03 23:31 查看详情