助力深度学习!阿里开源可插拔 GPU 共享调度工具 (yq.aliyun.com)

【简介】

根据 Gartner 对全球 CIO 的调查结果显示,人工智能将成为 2019 年组织革命的颠覆性力量。对于人工智能来说,算力即正义,成本即能力,利用 Docker 和 Kubernetes 代表云原生技术为 AI 提供了一种新的工作模式,将 GPU 机器放到统一的资源池进行调度和管理,这避免了GPU 资源利用率低下和人工管理的成本。因此,全球主要的容器集群服务厂商 Kubernetes 都提供了 Nvidia GPU 容器集群调度能力,但是通常都是将一个 GPU 卡分配给一个容器。这虽然可以实现比较好的隔离性,确保使用 GPU 的应用不会被其他应用影响;对于深度学习模型训练的场景也非常适合,但是,针对模型开发和模型预测的场景还是会显得比较浪费。基于此,大家有了共享 GPU 的集群调度需求。

点击查看全文 >>

@可耐芊小仙女 2019-03-07 15:22分享 / 0个评论
要不要再学学下面的文章?
一线实践 | 借助混沌工程工具 ChaosBlade 构建高可用的分布式系统 (yq.aliyun.com)
在分布式架构环境下,服务间的依赖日益复杂,可能没有人能说清单个故障对整个系统的影响,构建一个高可用的分布式系统面临着很大挑战。在可控范围或环境下,使用 ChaosBlade 工具,对系统注入各种故障,持续提升分布式系统的容错和弹性能力,以构建高可用的分布式系统。
by @可耐芊小仙女 2019-05-15 16:08 分享 查看详情
想编程,是勤奋自学还是去培训班学习? (mp.weixin.qq.com)
我应该去培训吗?

如果这个话题放到每个阶段的人生来讨论,那么肯定又是一个异常矛盾的话题,因为每个人生处的周围学习环境不同,也跟性格有关系,孤独的自学成才,会锻炼你扎实的基本功和独立思考的能力,融入团体去学习,可以让你认识更多人脉,达成事半功倍。
by @code小生 2019-05-12 21:53 分享 查看详情
阿里开源!轻量级深度学习端侧推理引擎 MNN (yq.aliyun.com)
AI科学家贾扬清如此评价道:“与 Tensorflow、Caffe2 等同时覆盖训练和推理的通用框架相比,MNN 更注重在推理时的加速和优化,解决在模型部署的阶段的效率问题,从而在移动端更高效地实现模型背后的业务。这和服务器端 TensorRT 等推理引擎的想法不谋而合。在大规模机器学习应用中,考虑到大规模的模型部署,机器学习的推理侧计算量往往是训练侧计算量的十倍以上,所以推理侧的优化尤其重要。”
by @可耐芊小仙女 2019-05-07 16:15 分享 查看详情
使用DataWorks调度DLA循环任务 (yq.aliyun.com)
DataWorks是阿里云上的一款热门产品,可以为用户提供大数据开发调度服务。它支持了Data Lake Analytics(后文简称DLA)以后,DLA用户可以通过它进行定时任务调度,非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。
by @可耐芊小仙女 2019-04-22 17:06 分享 查看详情
免费的容器架构可视化工具 | 阿里云应用高可用服务 AHAS 发布重大新特性 (yq.aliyun.com)
采用容器服务后,了解容器之间的关系及依赖是一个比较有挑战的问题。容器化改造后的实际架构模型可能与预想的架构存在较大的差异,架构师或系统运维人员需要精确地了解资源实例的构成和交互情况,存在一定的困难。其次,系统架构在动态演化过程中可能引入了一些不可靠的因素,比如弱依赖变强依赖、局部容量不足、系统耦合过重等,给系统的稳定性带了极大的安全隐患。所以我们每次在面对系统改造、业务大促、迁移上云以及稳定性治理工作之前,都会通过梳理架构图的方式,呈现系统架构中个组件之间的交互方式,架构可视化能够清晰的协助我们识别架构中存在的问题以及建立高可用的系统。
by @可耐芊小仙女 2019-04-22 16:04 分享 查看详情
更效率、更优雅 | 阿里巴巴开发者工具不完全盘点 (yq.aliyun.com)
更效率、更优雅 | 阿里巴巴开发者工具不完全盘点 从人工到自动化,从重复到创新,技术演进的历程中,伴随着开发者工具类产品的发展。 阿里巴巴将自身在各类业务场景下的技术积淀,通过开源、云上实现或工具等形式对外开放,本文将精选了一些阿里巴巴的开发者工具,希望能帮助开发者们提高开发效率、更优雅的写代码。
by @可耐芊小仙女 2019-04-17 16:00 分享 查看详情
SaaS加速器II 能力中心:互利互补 共享商业红利 (yq.aliyun.com)
通过丰富的阿里集团和三方的业务能力API,缩短业务从0-1构建的周期和降低成本,我们希望能够把阿里巴巴在电商、金融、物流、高德以及其他领域沉淀出来商业最佳实践、商业能力,通过阿里云的渠道输出,赋能合作伙伴,让合作伙伴构建行业和领域业务系统时,直接利用这些能力,让合作伙伴能够具备像阿里巴巴一样做生意的能力。
by @可耐芊小仙女 2019-04-17 15:40 分享 查看详情
SaaS加速器 I 商业中心:提供商业助力 共享商业成功 (yq.aliyun.com)
根据第三方研究报告显示:30%的企业上云时直接用SaaS替换以前的系统;20%的企业基于云原生方案重构业务系统。还有50%的客户选择直接把应用系统迁移上云,但最终应用还是会SaaS化,或者是基于云原生的方案重构自己的方案。
by @可耐芊小仙女 2019-04-16 16:05 分享 查看详情
阿里云异构计算发布:轻量级GPU云服务器实例VGN5i (yq.aliyun.com)
阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景,更细粒度的GPU计算服务。
by @可耐芊小仙女 2019-04-15 15:02 分享 查看详情
单颗GPU计算能力太多、太贵?阿里云发布云上首个轻量级GPU实例 (yq.aliyun.com)
在硅谷举办的2019年NVIDIA GPU技术大会(GTC)上,阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本、更高弹性开展业务。
by @可耐芊小仙女 2019-04-15 14:57 分享 查看详情