MaxCompute读取分析OSS非结构化数据的实践经验总结 (yq.aliyun.com)

【简介】

很多行业的信息系统中,例如金融行业的信息系统,相当多的数据交互工作是通过传统的文本文件进行交互的。此外,很多系统的业务日志和系统日志由于各种原因并没有进入ELK之类的日志分析系统,也是以文本文件的形式存在的。

点击查看全文 >>

@幸运的猫耳 2018-06-20 15:03分享 / 0个评论
赞过的人: 技术头条
要不要再学学下面的文章?
58 同城基于 Flink 的千亿级实时计算平台架构实践 (www.54tianzhisheng.cn)
58 同城作为覆盖生活全领域的服务平台,业务覆盖招聘、房产、汽车、金融、二手及本地服务等各个方面。丰富的业务线和庞大的用户数每天产生海量用户数据需要实时化的计算分析,实时计算平台定位于为集团海量数据提供高效、稳定、分布式实时计算的基础服务。本文主要介绍 58 同城基于 Flink 打造的一站式实时计算平台 Wstream。
by @zhisheng_blog 2020-02-23 09:07 分享 查看详情
阿里巴巴 Flink 踩坑经验:如何大幅降低 HDFS 压力? (www.54tianzhisheng.cn)
众所周知,Flink 是当前最为广泛使用的计算引擎之一,它使用 Checkpoint 机制进行容错处理 [1],Checkpoint 会将状态快照备份到分布式存储系统,供后续恢复使用。在 Alibaba 内部,我们使用的存储主要是 HDFS,当同一个集群的 Job 到达一定数量后,会对 HDFS 造成非常大的压力,本文将介绍一种大幅度降低 HDFS 压力的方法——小文件合并。
by @zhisheng_blog 2020-02-23 09:06 分享 查看详情
美团点评基于 Flink 的实时数仓平台实践 (www.54tianzhisheng.cn)
数据仓库的建设是“数据智能”必不可少的一环,也是大规模数据应用中必然面临的挑战,而 Flink 实时数仓在数据链路中扮演着极为重要的角色。本文中,美团点评高级技术专家鲁昊为大家分享了美团点评基于 Apache Flink 的实时数仓平台实践。
by @zhisheng_blog 2020-02-23 09:04 分享 查看详情
JavaScript 深拷贝性能分析 (justjavac.com)
如何在 JavaScript 中拷贝一个对象?对于这个很简单的问题,但是答案却不简单。
by @技术头条 2020-02-05 15:11 分享 查看详情
2019 年终总结,168 篇,已归类! (mp.weixin.qq.com)
一年一度的号内文章合集,2019 照例。不同的是 17 和 18 都是专注于学习资料分享,19 年则专注于 Java 、Python 、程序员三个维度进行的分享。
by @code小生 2020-01-12 18:46 分享 查看详情
今日头条技术架构分析 (mp.weixin.qq.com)
今日头条创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。
by @code小生 2020-01-05 21:32 分享 查看详情
Kubernetes 下零信任安全架构分析 (yq.aliyun.com)
零信任安全最早由著名研究机构 Forrester 的首席分析师约翰.金德维格在 2010 年提出。零信任安全针对传统边界安全架构思想进行了重新评估和审视,并对安全架构思路给出了新的建议。其核心思想是,默认情况下不应该信任网络内部和外部的任何人/设备/系统,需要基于认证和授权重构访问控制的信任基础。诸如 IP 地址、主机、地理位置、所处网络等均不能作为可信的凭证。
by @可耐芊小仙女 2019-12-30 15:51 分享 查看详情
嗖的一下!只要一条命令,K8s监控数据一键写入时序数据库 (yq.aliyun.com)
这里的“快速”有多快呢?一条命令就能搞定!本文就介绍如何使用helm一键完成k8s监控数据到阿里云InfluxDB®的存储链路。对于helm的安装和使用,网上有很多资料,这里不赘述。有一点需要注意,虽然近期helm 3已经发布,但短期内不是所有的helm chart都兼容helm 3,比如社区的这个issue。本文依然使用helm 2来安装。
by @可耐芊小仙女 2019-12-30 15:50 分享 查看详情
在 Flink 算子中使用多线程如何保证不丢数据? (yq.aliyun.com)
笔者线上有一个 Flink 任务消费 Kafka 数据,将数据转换后,在 Flink 的 Sink 算子内部调用第三方 api 将数据上报到第三方的数据分析平台。这里使用批量同步 api,即:每 50 条数据请求一次第三方接口,可以通过批量 api 来提高请求效率。由于调用的外网接口,所以每次调用 api 比较耗时。假如批次大小为 50,且请求接口的平均响应时间为 50ms,使用同步 api,因此第一次请求响应以后才会发起第二次请求。
by @可耐芊小仙女 2019-12-30 15:48 分享 查看详情
日处理数据量超10亿:友信金服基于Flink构建实时用户画像系统的实践 (yq.aliyun.com)
当今生活节奏日益加快,企业面对不断增加的海量信息,其信息筛选和处理效率低下的困扰与日俱增。由于用户营销不够细化,企业 App 中许多不合时宜或不合偏好的消息推送很大程度上影响了用户体验,甚至引发了用户流失。在此背景下,友信金服公司推行全域的数据体系战略,通过打通和整合集团各个业务线数据,利用大数据、人工智能等技术构建统一的数据资产,如 ID-Mapping、用户标签等。友信金服用户画像项目正是以此为背景成立,旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。
by @可耐芊小仙女 2019-12-30 15:47 分享 查看详情