业务数据治理体系化思考与实践 (tech.meituan.com)

【简介】

美团住宿数据治理团队从事数据治理工作多年,从最初的被动、单点治理,发展到后来的主动、专项治理,再发展到现在的体系化、自动化治理。一路走来,他们不断进行积累和沉淀,也在持续思考与实践。目前该团队取得了一些阶段性的成果,并得到美团多个业务线的认可和肯定。过程的经验与教训,希望能和大家分享,也希望能给从事数据治理工作的同学带来一些新思路。

点击查看全文 >>

@技术头条 2022-06-19 23:26分享 / 0个评论
要不要再学学下面的文章?
处理Exception的几种实践,被很多团队采纳! (mp.weixin.qq.com)
在 Java 中处理异常并不是一个简单的事情。不仅仅初学者很难理解,即使一些有经验的开发者也需要花费很多时间来思考如何处理异常,包括需要处理哪些异常,怎样处理等等。

这也是绝大多数开发团队都会制定一些规则来规范对异常的处理的原因。而团队之间的这些规范往往是截然不同的。

本文给出几个被很多团队使用的异常处理最佳实践。
by @code小生 19小时前 分享 查看详情
绿盟数据安全整体建设思路 (blog.nsfocus.net)
绿盟科技从数据安全建设顶层设计出发,提出“一个中心,四个领域,五个阶段”的数据安全体系建设思路。以数据安全防护为中心,在组织建设、制度流程,技术工具和人员能力4个领域同时开展建设工作,通过“知、识、控、察、行”五个步骤进行数据安全落地建设。
by @技术头条 2022-06-19 23:23 分享 查看详情
美团智能客服核心技术与实践 (tech.meituan.com)
客服是在用户服务体验不完美的情况下,尽可能帮助体验顺畅进行下去的一种解决办法,是问题发生后的一种兜底方案。而智能客服能让大部分简单的问题得以快速自助解决,让复杂问题有机会被人工高效解决。在用户服务的全旅程中,美团平台/搜索与NLP部提供了问题推荐、问题理解、对话管理、答案供给、话术推荐和会话摘要等六大智能客服核心能力,以期达到低成本、高效率、高质量地与用户进行沟通的目的。本文主要介绍了美团智能客服核心技术以及在美团的实践,希望能给从事相关工作的同学带来一些启发或者帮助。
by @技术头条 2022-06-19 23:22 分享 查看详情
新一代CTR预测服务的GPU优化实践 (tech.meituan.com)
CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来,随着深度神经网络的引入,CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点,结合GPU硬件架构,我们设计了一系列流程对模型进行定制优化,达到了降低延迟、提高吞吐、节省成本的目标。
by @技术头条 2022-06-19 23:22 分享 查看详情
FlutterWeb性能优化探索与实践 (tech.meituan.com)
美团外卖商家端基于 FlutterWeb 的技术探索已久,目前在多个业务中落地了App、PC、H5的多端复用,有效提升了产研的整体效率。在这过程中,性能问题是我们面临的最大挑战,本文结合实际业务场景进行思考,介绍美团外卖商家端在 FlutterWeb 性能优化上所进行的探索和实践,希望对大家能有所帮助或启发。
by @技术头条 2022-06-19 22:52 分享 查看详情
TensorFlow在推荐系统中的分布式训练优化实践 (tech.meituan.com)
美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。
by @技术头条 2022-06-19 22:52 分享 查看详情
蒙皮数据的压缩 (blog.codingnow.com)
传统的蒙皮数据需要在模型顶点上存两组数据,其一为该顶点受哪些骨头的影响,其二为受这些骨头影响的权重。因为 GPU 的对齐影响,通常游戏中会将同一顶点受影响的骨头数量上限设为 4 。如果不做任何优化,骨头总数在 256 以下时,每个顶点需要 4 个字节保存骨头编号,再用 4 个 float 表示分别的权重。

因为权重之和总是为 1 ,所以,只用 3 个 float 也是可以的(第四个权重通过简单的计算就可以得到)。

因为权重总是 0-1 之间的数字,所以 32bits float 的精度远超所需,我们也并不需要浮点数。所以用 16bits [0,65535) 甚至 8bits (0,255] 来表示 0-1 的权重也够了。

所以,蒙皮一般至少占用 64bit 的定点数据 (4+4 bytes) 。

如果想进一步压缩,就需要一些复杂的技巧了。
by @技术头条 2022-06-19 22:42 分享 查看详情
正确处理全球五大互联网注册机构的 IP 数据 (soulteary.com)
如果我们不需要精准判断服务请求来源和用户 IP 归属地,使用全球五大 RIR 机构每日更新的 IP 分配数据,相比较使用商业 IP 数据库而言,会是一个低成本的方案(免费)。本文将聊聊如何正确对 APNIC、ARIN、RIPE NCC、LACNIC 和 AFRINIC 这五个全球顶级互联网注册机构(RIR)的 IP 注册数据进行处理。
by @技术头条 2022-06-19 19:25 分享 查看详情
4 个用来擦除数据的 Linux 工具 (linux.cn)
保持数据安全的最好方法之一是只向加密的硬盘驱动器写入数据。在一个标准的硬盘上,只要把硬盘挂载就可以查看数据,就像 U 盘一样,甚至可以用 Scalpel 和 Testdisk 等工具显示和恢复已删除的数据。但是在一个加密的驱动器上,如果没有解密密钥(通常是你在挂载驱动器时输入的密码),数据是无法被读取的。
加密可以在你安装操作系统时建立,有些操作系统甚至可以在安装后的任何时候激活加密功能。
但是,当你卖掉一台电脑或更换一个一开始就没有被加密的驱动器时,你该怎么办呢?
与从一开始就加密你的数据相比,最好的办法是在你用完硬盘后删除数据。
by @技术头条 2022-05-23 00:14 分享 查看详情
在 Apache Cassandra 中定义和优化数据分区 (linux.cn)
Apache Cassandra 是一个数据库,但又不是一个简单的数据库;它是一个复制数据库,专为可扩展性、高可用性、低延迟和良好性能而设计调整。Cassandra 可以帮你的数据在区域性中断、硬件故障时,以及很多管理员认为数据量过多的情况下幸免于难。

全面掌握数据分区知识,你就能让 Cassandra 集群实现良好的设计、极高的性能和可扩展性。在本文中,我将探究如何定义分区,Cassandra 如何使用这些分区,以及一些你应该了解的最佳实践方案和已知问题。
by @技术头条 2022-05-23 00:14 分享 查看详情