如何根据LLM的参数估算内存(显存)使用量 (it.deepinmind.com)
理解像Mistral-7B这样的模型的内存需求量对于优化其部署和使用至关重要。对于考虑使用云计算服务进行模型训练和推理的人来说更是如此,因为它会影响到硬件的选择和整体成本。
by @技术头条 2024-04-03 01:54 查看详情
什么是1-bit LLM (it.deepinmind.com)
生成式AI领域正在飞速发展,最新加入这个快速演进领域的是一1比特LLMs。你可能不相信,但它可以改变很多事情,并有助于消除与LLMs相关的一些最大挑战,尤其是它们庞大尺寸问题。

通常情况下(不总是这样),无论是LLMs还是逻辑回归等机器学习模型,其权重都以32位浮点数或16位浮点数的形式存储。

这就是为什么我们无法在本地系统和生产环境中使用GPT等大型模型的原因。因为这些模型具有大量权重,由于权重的高精度值导致模型体积庞大。
by @技术头条 2024-04-03 01:39 查看详情
百亿大规模图在广告场景的应用 (tech.meituan.com)
本文通过搜索推荐项目进行外卖搜索广告弱供给填充,提高流量变现效率。我们提出外卖多场景异构大图、异构大图在线建模技术演进路线,解决外卖搜索推荐业务多渠道、即时化的挑战。相关成果发表CIKM2023会议一篇。联合机器学习平台搭建大规模图训练、在线推理引擎GraphET,满足近百亿边规模、复杂图结构的多个业务落地。
by @技术头条 2024-03-31 21:17 查看详情
大众点评内容搜索算法优化的探索与实践 (tech.meituan.com)
本文整理自美团技术沙龙第80期《美团内容智能分发的算法实践》,分享内容主要包括三部分。第一部分介绍了大众点评内容搜索的场景特点以及面临的挑战;第二部分介绍了为应对这些困难和挑战,技术团队在链路各环节上做的实践优化,包括内容消费和搜索满意度的优化等等;第三部分是总结和对未来的展望。
by @技术头条 2024-03-31 21:14 查看详情
Agent是如何工作的:概念及LangChain实现 (it.deepinmind.com)
LLM(大型语言模型)在自主Agent领域的应用受到了广泛关注。你可能已经在诸如Auto-GPT、BabyAGI等流行应用中了解过它们的用法,这些应用几乎每天都层出不穷。

理解这些应用的基本原理并不复杂,因为大多数工具的工作流程大致相同。
by @技术头条 2024-03-31 21:13 查看详情
在 kubernetes 环境下如何优雅扩缩容 Pulsar (crossoverjie.top)
在整个大环境的降本增效的熏陶下,我们也不得不做好应对方案。

根据对线上流量、存储以及系统资源的占用,发现我们的 Pulsar 集群有许多的冗余,所以考虑进行缩容从而减少资源浪费,最终也能省一些费用。

不过在缩容之前很有必要先聊聊扩容,Pulsar 一开始就是存算分离的架构(更多关于 Pulsar 架构的内容本文不做过多介绍,感兴趣的可以自行搜索),天然就非常适合 kubernetes 环境,也可以利用 kubernetes 的能力进行快速扩容。
by @技术头条 2024-03-31 21:12 查看详情
异常检测是什么? (ixyzero.com)
简单整理一下在和AI对话时产生的一些对「异常检测」的理解,方便后面有需要的时候参考。

异常检测是识别与预期行为不同的事件或模式的过程(因此想要识别“异常”,就需要先明确“正常”是什么样的。一种逻辑是完全按照规范来,非白即黑,但在实际情况下这种的告警量太多导致基本不可用;另一种逻辑是按照统计指标进行从大到小排序,每次只处理当前的top5,要么正常要么异常,正常的话就去优化统计策略——加白,异常的话就加大统计指标权重,进一步发现更多异常。总之就是需要在准确率和召回率之间找到平衡)。

异常检测的准确性高度依赖于数据的质量,包括数据的完整性、一致性和准确性。

对于某些领域,需要深入了解数据的业务背景和特点,以便更好地识别异常。
by @技术头条 2024-03-31 21:10 查看详情
OpenVPN同时连接多个VPN服务 (www.iszy.cc)
在日常开发工作中,要连接不同的环境需要连接不同的 VPN 服务,OpenVPN 默认只会添加一个 Tap 网卡,只能来回切换 VPN,很不方便。所以我们只需要能够增加更多的 Tap 网卡即可。

接下来的操作都是以安装完 OpenVPN 为前提的,如果没有安装,可以前往官网进行安装。
by @技术头条 2024-03-31 21:08 查看详情
周刊(第8期):技术配图的一些心得 (www.codedump.info)
简单总结了一下个人技术配图的一些心得,总的大原则是:
1、区分:将组件、流程、趋势等之间的”区分“尽可能在图示中通过各种手段(如不同的颜色、形状、箭头)表达出来。
2、联系:组件之间的数据流动、状态切换等,都是它们之间的联系,也需要通过各种手段表达出来。
3、说明:可能的话,要在图中加上一些说明文字,如步骤说明、分类说明,等等。
by @技术头条 2024-03-31 21:06 查看详情
sqlite并发读写的演进之路 (www.codedump.info)
本文梳理sqlite并发读写方案的演进之路。
by @技术头条 2024-03-21 23:26 查看详情
从存储模型聊一聊时序数据库的应用场景 (www.codedump.info)
本文介绍时序数据库的存储模型,只有理解了时序数据的存储模型,才能更好的了解时序数据库的优缺点以及其适用场景。
by @技术头条 2024-03-21 23:25 查看详情
Lamport时钟介绍 (www.codedump.info)
在分布式系统中,由于有多个机器(进程)在一起协调工作,于是如何定义分布式系统中事件的先后顺序就成了难题,本文介绍论文 《Time, Clocks, and the Ordering of Events in a Distributed System》中提到的Lamport时钟。
by @技术头条 2024-03-21 23:24 查看详情
网状的思考,线性的写作 (www.codedump.info)
除去“正襟危坐”正儿八经的写一篇“文章”整理观点和思考之外,更多的时候想法是发散的,并不局限在特定、单一的时空中。写作是线性的,而思考常常是发散的,如果思考之间不发生联系,把它们变成一张网,失去关联则很难起作用了。

“卡片式笔记法”就适用于记录这些发散的想法,每个想法单篇笔记,赋予每篇笔记唯一的逻辑地址,笔记与笔记之间,通过逻辑地址和tag发生关联。
by @技术头条 2024-03-21 23:24 查看详情
图解一致性模型 (www.codedump.info)
本文使用大量的图例,同时没有难懂的公式,意图解释清楚一致性模型要解决什么问题,以及三种一致性模型:顺序一致性、线性一致性、因果一致性。
by @技术头条 2024-03-21 23:23 查看详情
Memcached的存储原理解析 (www.codedump.info)
最近工作上的需要,需要做一个LRU形式管理内存的分配器,首先想到的就是Memcached这个项目。早些年粗略的看过一些,有个大体的了解,这一次看下来发现其LRU算法做了不少的改动。
by @技术头条 2024-03-21 23:21 查看详情
对比脚本型和编译型游戏服务器的热更新方案 (www.codedump.info)
本文对比游戏服务器中C++搭配脚本语言(Lua、Python)以及纯编译型语言(C++、Golang)来进行开发时,进行线上服务器热更新的方案。
by @技术头条 2024-03-21 23:21 查看详情
CPU篇之软中断 (www.codedump.info)
软中断作为下半部机制的代表,是随着SMP(share memory processor)的出现应运而生的,它也是tasklet实现的基础(tasklet实际上只是在软中断的基础上添加了一定的机制)。软中断一般是“可延迟函数”的总称,有时候也包括了tasklet(请读者在遇到的时候根据上下文推断是否包含tasklet)。它的出现就是因为要满足上面所提出的上半部和下半部的区别,使得对时间不敏感的任务延后执行,而且可以在多个CPU上并行执行,使得总的系统效率可以更高。
by @技术头条 2024-03-21 23:03 查看详情
B树、B+树索引算法原理(下) (www.codedump.info)
在上一篇文章中,介绍了数据库索引的简单概念,以及B树的结构及核心算法,这一篇将继续介绍B树的变形B+树。
by @技术头条 2024-03-21 23:02 查看详情
B树、B+树索引算法原理(上) (www.codedump.info)
这一段时间由于在阅读boltdb代码的缘故,找机会学习了B树及B+树的算法原理,这个系列会花两个篇幅分别介绍这两种数据结构的实现,其用于数据库索引中的基本原理。
by @技术头条 2024-03-21 23:01 查看详情
IM服务器设计-如何解决消息的乱序 (www.codedump.info)
IM消息需要面对的另一个难题:如何保证收到的消息不乱序。下面先展开看看要解决这个难题有哪些障碍。
by @技术头条 2024-03-21 23:00 查看详情