持续定义Saas模式云数据仓库+实时搜索 (developer.aliyun.com)

【简介】

本文由阿里云计算平台事业部 MaxCompute 产品经理孟硕为大家带来《持续定义Saas模式云数据仓库+实时搜索》的相关分享。以下是视频内容精华整理,主要包括以下三个部分:1.Why:概述与价值;2.What:应用场景;3.How:最佳实践。

点击查看全文 >>

@可耐芊小仙女 2020-10-30 09:57分享 / 0个评论
要不要再学学下面的文章?
收藏!Echarts数据可视化开发中的一些技巧和常见问题汇总 (mp.weixin.qq.com)
在做数据可视化开发过程中,一般使用较多的就是 Echarts 图标库了,完全免费,代码开源,且上手快,文档和示例都比较全面,接下来就分享一些 Echarts 图标库的一些使用技巧和对常见问题进行汇总。
by @code小生 9小时前 分享 查看详情
数据平台的隐私数据问题 (insights.thoughtworks.cn)
在面临隐私保护相关问题时,要从经济、法律和技术三方面入手,建立不断演化的安全攻击和防范体系,技术方面需要强化隐私相关技术的应用,从数据流动的角度,动态审视当前的安全策略。
by @Thoughtworks 2021-07-22 15:57 分享 查看详情
那些数据工作中的角色 (insights.thoughtworks.cn)
没有数据分析师,不管一个企业中的数据管理做得有多么好都没用,都无法带来实际的价值。这些数据就像是藏在海底的石油,而数据分析师就是开采海底石油的油井设备。
by @Thoughtworks 2021-07-20 10:35 分享 查看详情
持续集成和交付流水线的反模式 (insights.thoughtworks.cn)
持续集成和交付流水线是软件开发过程中避免浪费的一种实践,展现了从代码提交、构建、部署、测试到发布的整个过程,为团队提供可视化和及时反馈。
by @Thoughtworks 2021-07-19 16:40 分享 查看详情
私有化仓库的 GO 模块使用实践 (zhuanlan.zhihu.com)
GO 在 1.11 版本开始引入 Module 的特性;1.13 版本引入 Module 校验和检查,加强了 Module 的安全性;现在的 1.16 版本已经默认使用 Module 模式。日前 GO 团队在博客上表明,将在 1.17 版本时删除对 GOPATH 的支持……
by @又拍云 2021-07-02 14:28 分享 查看详情
持续集成和交付流水线的反模式 (insights.thoughtworks.cn)
持续集成和交付流水线是软件开发过程中避免浪费的一种实践,展现了从代码提交、构建、部署、测试到发布的整个过程,为团队提供可视化和及时反馈。
by @Thoughtworks 2021-06-28 13:50 分享 查看详情
美团搜索中NER技术的探索与实践 (tech.meituan.com)
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。在美团搜索场景下,NER是深度查询理解(Deep Query Understanding,简称 DQU)的底层基础信号,主要应用于搜索召回、用户意图识别、实体链接等环节,NER信号的质量,直接影响到用户的搜索体验。

下面将简述一下实体识别在搜索召回中的应用。在O2O搜索中,对商家POI的描述是商家名称、地址、品类等多个互相之间相关性并不高的文本域。如果对O2O搜索引擎也采用全部文本域命中求交的方式,就可能会产生大量的误召回。我们的解决方法如下图1所示,让特定的查询只在特定的文本域做倒排检索,我们称之为“结构化召回”,可保证召回商家的强相关性。举例来说,对于“海底捞”这样的请求,有些商家地址会描述为“海底捞附近几百米”,若采用全文本域检索这些商家就会被召回,显然这并不是用户想要的。而结构化召回基于NER将“海底捞”识别为商家,然后只在商家名相关文本域检索,从而只召回海底捞品牌商家,精准地满足了用户需求。
by @技术头条 2021-05-28 22:52 分享 查看详情
使用容器搭建简单可靠的容器仓库 (soulteary.com)
提到容器仓库,我们一般会想到 Nexus、Harbor ,那么有没有更轻量可靠的方案呢。尤其是在频繁构建的 CI 流水线中、或是分布式的环境中需要高频拉取镜像的场景中。

《使用容器搭建 APT Cacher NG 缓存代理服务》一文提到了缓存,虽然可以使用文末中的 Nginx 的补充方式来提供容器镜像导出文件的缓存托管,但是这种方式相比较使用镜像仓库而言,不能够直接使用 Docker Client 与之交互,需要借助导出和导入命令,使用起来颇有不便。

本篇文章继续聊聊,如何使用容器搭建轻量可靠的镜像仓库:distribution。
by @技术头条 2021-05-27 22:19 分享 查看详情
浅谈协同文档中的数据一致性 (www.alloyteam.com)
在线文档是一个数据一致性要求很强的项目,我们经常会提到一个在线文档的技术:“协同冲突处理算法——OT”。这是协同编辑处理的核心。因为它保障了在多客户端同时提交修改的情况下的数据一致性,用通俗一点的方式描述:多人在线编辑,每个人提交的内容不一样,但通过协同冲突算法,最终都能看到一样的内容。

但在这里我们不想深入去探讨协同编辑冲突算法的具体内容,对这块有兴趣的朋友可以参考之前我们团队的博客,已经有过很多介绍。本文主要是介绍协同冲突算法产生的原因,以及它背后关于数据一致性的问题。
by @技术头条 2021-05-27 08:13 分享 查看详情
Go反模式之越俎代庖 (colobu.com)
反模式(anti-pattern或antipattern)又叫做反面模式,指的是在实践中经常出现但又低效或是有待优化的设计模式,是用来解决问题的带有共同性的不良方法。Andrew Koenig在1995年造了anti-pattern这个词,灵感来自于GoF的《设计模式》一书。

按《AntiPatterns》作者的说法,可以用至少两个关键因素来把反面模式和不良习惯、错误的实践或糟糕的想法区分开来:
1、行动、过程和结构中的一些重复出现的乍一看是有益的,但最终得不偿失的模式;
2、在实践中证明且可重复的清晰记录的重构方案;
by @技术头条 2021-05-27 08:02 分享 查看详情