日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践 (yq.aliyun.com)

【简介】

当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业 App 中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。

点击查看全文 >>

@可耐芊小仙女 2019-12-30 15:47分享 / 0个评论
要不要再学学下面的文章?
如何设计数据可视化平台 (insights.thoughtworks.cn)
当数据平台逐渐变成每个企业发展所依赖的重要因素,设计出好用的数据可视化平台便是体验设计师的职责,文章会从设计的角度回答三个问题:什么是数据可视化?为什么需要可视化设计?以及该从何处着手设计一个数据可视化平台?
by @Thoughtworks 4小时前 分享 查看详情
处理Exception的几种实践,被很多团队采纳! (mp.weixin.qq.com)
在 Java 中处理异常并不是一个简单的事情。不仅仅初学者很难理解,即使一些有经验的开发者也需要花费很多时间来思考如何处理异常,包括需要处理哪些异常,怎样处理等等。

这也是绝大多数开发团队都会制定一些规则来规范对异常的处理的原因。而团队之间的这些规范往往是截然不同的。

本文给出几个被很多团队使用的异常处理最佳实践。
by @code小生 2022-06-26 11:31 分享 查看详情
业务数据治理体系化思考与实践 (tech.meituan.com)
美团住宿数据治理团队从事数据治理工作多年,从最初的被动、单点治理,发展到后来的主动、专项治理,再发展到现在的体系化、自动化治理。一路走来,他们不断进行积累和沉淀,也在持续思考与实践。目前该团队取得了一些阶段性的成果,并得到美团多个业务线的认可和肯定。过程的经验与教训,希望能和大家分享,也希望能给从事数据治理工作的同学带来一些新思路。
by @技术头条 2022-06-19 23:26 分享 查看详情
绿盟数据安全整体建设思路 (blog.nsfocus.net)
绿盟科技从数据安全建设顶层设计出发,提出“一个中心,四个领域,五个阶段”的数据安全体系建设思路。以数据安全防护为中心,在组织建设、制度流程,技术工具和人员能力4个领域同时开展建设工作,通过“知、识、控、察、行”五个步骤进行数据安全落地建设。
by @技术头条 2022-06-19 23:23 分享 查看详情
美团智能客服核心技术与实践 (tech.meituan.com)
客服是在用户服务体验不完美的情况下,尽可能帮助体验顺畅进行下去的一种解决办法,是问题发生后的一种兜底方案。而智能客服能让大部分简单的问题得以快速自助解决,让复杂问题有机会被人工高效解决。在用户服务的全旅程中,美团平台/搜索与NLP部提供了问题推荐、问题理解、对话管理、答案供给、话术推荐和会话摘要等六大智能客服核心能力,以期达到低成本、高效率、高质量地与用户进行沟通的目的。本文主要介绍了美团智能客服核心技术以及在美团的实践,希望能给从事相关工作的同学带来一些启发或者帮助。
by @技术头条 2022-06-19 23:22 分享 查看详情
新一代CTR预测服务的GPU优化实践 (tech.meituan.com)
CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来,随着深度神经网络的引入,CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点,结合GPU硬件架构,我们设计了一系列流程对模型进行定制优化,达到了降低延迟、提高吞吐、节省成本的目标。
by @技术头条 2022-06-19 23:22 分享 查看详情
FlutterWeb性能优化探索与实践 (tech.meituan.com)
美团外卖商家端基于 FlutterWeb 的技术探索已久,目前在多个业务中落地了App、PC、H5的多端复用,有效提升了产研的整体效率。在这过程中,性能问题是我们面临的最大挑战,本文结合实际业务场景进行思考,介绍美团外卖商家端在 FlutterWeb 性能优化上所进行的探索和实践,希望对大家能有所帮助或启发。
by @技术头条 2022-06-19 22:52 分享 查看详情
TensorFlow在推荐系统中的分布式训练优化实践 (tech.meituan.com)
美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。
by @技术头条 2022-06-19 22:52 分享 查看详情
Better Code: 异常时, 该提示用户哪些信息? (wklken.me)
做 toB 一个非常高的成本是, 用户的环境/网络/数据等, 可能跟你预期的差异很大, 再加上沟通相对困难(涉及三方/四方, 无法便捷地登机器排查问题, 无法便捷地获取日志, 接口人业务或技术水平参差不齐).

而这时候, 你会面临一个问题, 如何在信息不足/沟通不畅的场景下, 尽量提升效率, 降低成本(大部分情况下, 逢单必结, 你必须解决问题, 没有选择的余地)。
by @技术头条 2022-06-19 22:47 分享 查看详情
蒙皮数据的压缩 (blog.codingnow.com)
传统的蒙皮数据需要在模型顶点上存两组数据,其一为该顶点受哪些骨头的影响,其二为受这些骨头影响的权重。因为 GPU 的对齐影响,通常游戏中会将同一顶点受影响的骨头数量上限设为 4 。如果不做任何优化,骨头总数在 256 以下时,每个顶点需要 4 个字节保存骨头编号,再用 4 个 float 表示分别的权重。

因为权重之和总是为 1 ,所以,只用 3 个 float 也是可以的(第四个权重通过简单的计算就可以得到)。

因为权重总是 0-1 之间的数字,所以 32bits float 的精度远超所需,我们也并不需要浮点数。所以用 16bits [0,65535) 甚至 8bits (0,255] 来表示 0-1 的权重也够了。

所以,蒙皮一般至少占用 64bit 的定点数据 (4+4 bytes) 。

如果想进一步压缩,就需要一些复杂的技巧了。
by @技术头条 2022-06-19 22:42 分享 查看详情