基于Tablestore Tunnel的数据复制实战 (yq.aliyun.com)

【简介】

数据复制主要指通过互联的网络在多台机器上保存相同数据的副本,通过数据复制方案,人们通常希望达到以下目的:1)使数据在地理位置上更接近用户,进而降低访问延迟;2)当部分组件出现故障时,系统依旧可以继续工作,提高可用性;3)扩展至多台机器以同时提供数据访问服务,从而提升读吞吐量。如果复制的数据一成不变,那么数据复制就非常容易,只需要将数据复制到每个节点,一次性即可搞定,面对持续更改的数据如何正确而有效的完成数据复制是一个不小的挑战。

点击查看全文 >>

@可耐芊小仙女 2019-07-01 10:40分享 / 0个评论
赞过的人: 技术头条
要不要再学学下面的文章?
从零开始入门 K8s | 应用存储和持久化数据卷:核心知识 (yq.aliyun.com)
介绍了 K8s Volume 的使用场景,以及本身局限性;
通过介绍 K8s 的 PVC 和 PV 体系,说明 K8s 通过 PVC 和 PV 体系增强了 K8s Volumes 在多 Pod 共享/迁移/存储扩展等场景下的能力的必要性以及设计思想;
通过介绍 PV(存储)的不同供给模式 (static and dynamic),学习了如何通过不同方式为集群中的 Pod 供给所需的存储;
通过 PVC&PV 在 K8s 中完整的处理流程,深入理解 PVC&PV 的工作原理 。
by @技术小编443 3小时前 分享 查看详情
从零开始入门 K8s | 应用存储和持久化数据卷:存储快照与拓扑调度 (yq.aliyun.com)
在使用存储时,为了提高数据操作的容错性,我们通常有需要对线上数据进行 snapshot ,以及能快速 restore 的能力。另外,当需要对线上数据进行快速的复制以及迁移等动作,如进行环境的复制、数据开发等功能时,都可以通过存储快照来满足需求,而 K8s 中通过 CSI Snapshotter controller 来实现存储快照的功能。
by @可耐芊小仙女 21小时前 分享 查看详情
从零开始入门 K8s | 应用存储和持久化数据卷:核心知识 (yq.aliyun.com)
文内场景中,通过 Pod Volumes 很难准确地表达它的复用/共享语义,对它的扩展也比较困难。因此 K8s 中又引入了 Persistent Volumes 概念,它可以将存储和计算分离,通过不同的组件来管理存储资源和计算资源,然后解耦 pod 和 Volume 之间生命周期的关联。这样,当把 pod 删除之后,它使用的 PV 仍然存在,还可以被新建的 pod 复用。
by @可耐芊小仙女 21小时前 分享 查看详情
如何构建批流一体数据融合平台的一致性语义保证? (yq.aliyun.com)
本文根据陈肃老师在 Apache Kafka x Flink Meetup 深圳站的分享整理而成,文章首先将从数据融合角度,谈一下 DataPipeline 对批流一体架构的看法,以及如何设计和使用一个基础框架。其次,数据的一致性是进行数据融合时最基础的问题。如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义。
by @技术小编443 2019-10-15 10:29 分享 查看详情
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点 (yq.aliyun.com)
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做数据可视化,用 R 做数据分析)。今天我想借此机会和大家聊聊我所理解的大数据现状和未来。
by @技术小编443 2019-10-14 13:42 分享 查看详情
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点 (yq.aliyun.com)
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做数据可视化,用 R 做数据分析)。今天我想借此机会和大家聊聊我所理解的大数据现状和未来。
by @可耐芊小仙女 2019-10-10 16:40 分享 查看详情
如何构建批流一体数据融合平台的一致性语义保证? (yq.aliyun.com)
本文根据陈肃老师在 Apache Kafka x Flink Meetup 深圳站的分享整理而成,文章首先将从数据融合角度,谈一下 DataPipeline 对批流一体架构的看法,以及如何设计和使用一个基础框架。其次,数据的一致性是进行数据融合时最基础的问题。如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义。
by @可耐芊小仙女 2019-10-10 16:38 分享 查看详情
一文让你彻底了解大数据实时计算引擎 Flink (mp.weixin.qq.com)
在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现方式,接着对比了实时计算和离线计算。随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop、Storm、Spark、Flink)。在网上有人将大数据计算引擎的发展分为四个阶段。
by @zhisheng_blog 2019-09-22 13:37 分享 查看详情
阿里巴巴飞天大数据架构体系与Hadoop生态系统 (yq.aliyun.com)
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。Hadoop的核心有两大板块:HDFS和MapReduce。
by @可耐芊小仙女 2019-09-12 17:56 分享 查看详情
独家 | 10个数据科学家常犯的编程错误(附解决方案) (developer.aliyun.com)
数据科学家是“比软件工程师更擅长统计学,比统计学家更擅长软件工程的人”。许多数据科学家都具有统计学背景,但是在软件工程方面的经验甚少。我是一名资深数据科学家,在Stackoverflow的python编程方面排名前1%,并与许多(初级)数据科学家共事。以下是我经常看到的10大常见错误,本文将为你相关解决方案:
by @可耐芊小仙女 2019-08-30 16:05 分享 查看详情