像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101 (yq.aliyun.com)

【简介】

由于Kubeflow Pipelines提供的例子多数都是单机任务,那么如何利用Pipelines运行分布式训练?阿里云容器服务团队提供了利用MPIJob训练ResNet101模型的例子,方便您在阿里云上使用和学习Kubeflow Pipelines,并且训练支持分布式的allreduce模型训练。

点击查看全文 >>

@可耐芊小仙女 2019-05-17 16:25分享 / 0个评论
要不要再学学下面的文章?
阿里巴巴大数据产品最新特性介绍--机器学习PAI (yq.aliyun.com)
在PAI的架构图中,最下层的是PAI的计算框架和数据资源。PAI可支持MaxCompute、OSS、HDFS和NAS等多种数据资源。在数据资源和多种计算框架基础之上,诞生出了PAI的最早形态:PAI-Studio——可视化建模实验平台,Studio中包括了两百多种算法,覆盖了数据预处理,特征工程,模型训练,评估预测等全链路的实验流程操作。用户可在PAI-Studio中以拖拽的方式构建实验,而无需复杂的操作。此外,PAI内置了鲲鹏计算框架,可支持百亿特征,百亿样本的超大规模矩阵训练。在最初建立过程中,PAI-Studio的定位目标为中级的算法工程师,即一个不需要很高的技术门槛就可以上手使用的算法平台。有了可视化建模Studio,PAI就可以拥有为用户提供业务支持,如构建推荐系统、金融风控、疾病预测或新闻分类等的能力。
by @可耐芊小仙女 14小时前 分享 查看详情
威胁快报|Solr dataimport成挖矿团伙新型利用方式 (yq.aliyun.com)
近日,阿里云安全团队监测到挖矿团伙利用solr dataimport RCE(CVE-2019-0193)作为新的攻击方式对云上主机进行攻击,攻击成功后下载门罗币挖矿程序进行牟利。该团伙使用的恶意脚本与之前报道的“威胁预警 | watchbog挖矿蠕虫升级,利用Bluekeep RDP等多个漏洞蓄势待发”文章所提团伙使用的基本一致,因此基本认为是同一团伙所为。
by @可耐芊小仙女 2019-09-03 16:13 分享 查看详情
利用InformationSchema与阿里云交易和账单管理API实现MaxCompute费用对账分摊统计 (yq.aliyun.com)
很多的企业用户选择MaxCompute按量付费模式构建自己的数据平台,利用MaxCompute按作业付费的计费模型,在获得高性能的同时避免"IDLE"状态的不必要资源费用支出,仅为实际使用付费。那么在一个规模比较大的公司,企业购买了MaxCompute服务,会支撑企业内部的不同部门、个人来使用MaxCompute来开展数据处理分析。为了更好地识别数据平台使用方的周期性花费成本,优化数据资源的使用,就有必要对作业的费用进行统计,从而确认不同人员或归属部门的作业数量、作业费用、作业时长、作业资源使用量等指标。基于这些指标进行成本分摊、作业优化等管理工作。
by @可耐芊小仙女 2019-08-14 16:40 分享 查看详情
利用 Android Keystore 系统 加密存储和解密敏感信息 (mp.weixin.qq.com)
利用 Android Keystore 系统,您可以在容器中存储加密密钥,从而提高从设备中提取密钥的难度。在密钥进入 Keystore 后,可以将它们用于加密操作,而密钥材料仍不可导出。此外,它提供了密钥使用的时间和方式限制措施,例如要求进行用户身份验证才能使用密钥,或者限制为只能在某些加密模式中使用。
by @code小生 2019-08-11 21:28 分享 查看详情
在MaxCompute中利用bitmap进行数据处理 (yq.aliyun.com)
很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个对不同日期活跃用户ID进行bitmap编码和计算的样例。供感兴趣的用户进一步了解、分析,并应用在自己的场景下。
by @可耐芊小仙女 2019-08-07 15:26 分享 查看详情
解锁云原生 AI 技能 - 开发你的机器学习工作流 (yq.aliyun.com)
机器学习工作流是一个任务驱动的流程,同时也是数据驱动的流程,这里涉及到数据的导入和准备、模型训练 Checkpoint 的导出评估、到最终模型的导出。这就需要分布式存储作为传输的媒介,此处使用 NAS 作为分布式存储。
by @可耐芊小仙女 2019-07-31 15:14 分享 查看详情
MaxCompute 助力衣二三构建智能化运营工具 (yq.aliyun.com)
本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。
衣二三作为亚洲最大的共享时装平台,MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢?程异丁通过衣二三数据体系架构,从用户运营应用、商品运营应用以及算法推荐系统三方面给大家剖析了MaxCompute是如何助力衣二三构建智能化运营工具的。
by @可耐芊小仙女 2019-07-29 15:45 分享 查看详情
基于阿里云 MaxCompute 构建企业云数据仓库CDW的最佳实践建议 (yq.aliyun.com)
在这么长的客户工作过程中,作为产品PD,一定是跟客户在一起的。我经常被一些问题挑战:云郎,我们现在要建数据仓库,我该怎么去规划?云郎,我现在这边是大数据的建设团队,好像数据团队不怎么理我,什么情况?云郎,我们这边现在建了一个平台,现在性能好像有问题,是不是我们哪些地方设计的有问题,还是考虑的不够?可以看到,不同的客户在不同的阶段有不同的问题,在这么多的客户问题里,背后到底隐藏了什么规律?在这里面有没有一些最佳实践,我们可以总结出来,让大家去少走一些弯路,这是我的出发点。
by @可耐芊小仙女 2019-07-25 16:37 分享 查看详情
解锁云原生 AI 技能|在 Kubernetes 上构建机器学习系统 (yq.aliyun.com)
机器学习的工程复杂度,除了来自于常见的软件开发问题外,还和机器学习数据驱动的特点相关。而这就带来了其工作流程链路更长,数据版本失控,实验难以跟踪、结果难以重现,模型迭代成本巨大等一系列问题。为了解决这些机器学习固有的问题,很多企业构建了内部机器学习平台来管理机器学习生命周期,其中最有名的是 Google 的 Tensorflow Extended, Facebook 的 FBLearner Flow, Uber 的 Michelangelo,遗憾的是这些平台都需要绑定在公司内部的基础设施之上,无法彻底开源。而这些机器学习平台的骨架就是机器学习工作流系统,它可以让数据科学家灵活定义自己的机器学习流水线,重用已有的数据处理和模型训练能力,进而更好的管理机器学习生命周期。
by @可耐芊小仙女 2019-07-24 15:44 分享 查看详情
弘康人寿基于 RocketMQ 构建微服务边界总线的实践 (yq.aliyun.com)
随着互联网+和平台化战略的兴起,各个行业的 IT 系统都在向互联网架构发展,涉及的主要技术包括微服务、消息和弹性计算等,采用微服务架构实现服务高内聚、低耦合,通过异步消息完成交易快速响应和高并发。由于微服务和消息是企业应用架构中用的比较多的,故希望通过本文探讨以下问题:
by @可耐芊小仙女 2019-07-23 15:56 分享 查看详情