CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化--技术头条 -- 微博大V帮你宣传技术博文开发者头条码农头条

CPU 混合推理，非常见大模型量化方案：“二三五六” 位量化 (soulteary.com)

【简介】

本篇文章聊聊网上聊的比较少的具体量化操作，非常见整型位数的量化，来自让各种开源模型能够在 CPU 环境、CPU & GPU 环境混合推理的技术方案：llama.cpp 。

由 @技术头条 2023-12-26 22:06 / 原作者微博：@soulteary / 0个评论

最近和公司一个开发团队探讨了一下他们正在开发的游戏中遇到的性能问题，看看应该如何优化。这个游戏的战斗场景想模仿亿万僵尸(They are billions）的场景。在亿万僵尸中，场景中描绘了上万的僵尸潮，但我们这个游戏，超过 500 个僵尸就遇到了性能问题。固然，手机的硬件性能比不上 PC ，但 500 这个数量级还是略低于预期。

对于游戏中大量类似的动画物体，肯定有方法可以优化。

by @技术头条 2024-05-05 23:26 查看详情

从存储模型聊一聊时序数据库的应用场景 (www.codedump.info)

本文介绍时序数据库的存储模型，只有理解了时序数据的存储模型，才能更好的了解时序数据库的优缺点以及其适用场景。

by @技术头条 2024-03-21 23:25 查看详情

图解一致性模型 (www.codedump.info)

本文使用大量的图例，同时没有难懂的公式，意图解释清楚一致性模型要解决什么问题，以及三种一致性模型：顺序一致性、线性一致性、因果一致性。

by @技术头条 2024-03-21 23:23 查看详情

对比脚本型和编译型游戏服务器的热更新方案 (www.codedump.info)

本文对比游戏服务器中C++搭配脚本语言（Lua、Python）以及纯编译型语言（C++、Golang）来进行开发时，进行线上服务器热更新的方案。

by @技术头条 2024-03-21 23:21 查看详情

CPU篇之软中断 (www.codedump.info)

软中断作为下半部机制的代表，是随着SMP（share memory processor）的出现应运而生的，它也是tasklet实现的基础（tasklet实际上只是在软中断的基础上添加了一定的机制）。软中断一般是“可延迟函数”的总称，有时候也包括了tasklet（请读者在遇到的时候根据上下文推断是否包含tasklet）。它的出现就是因为要满足上面所提出的上半部和下半部的区别，使得对时间不敏感的任务延后执行，而且可以在多个CPU上并行执行，使得总的系统效率可以更高。

by @技术头条 2024-03-21 23:03 查看详情

使用零一万物 200K 模型和 Dify 快速搭建模型应用 (soulteary.com)

本篇文章，我们聊聊如何使用 LLM IDE (Dify) 快速搭建一个模型应用，以及使用超长上下文的 200K 模型，完成懒人式的电子书翻译。

by @技术头条 2024-03-21 22:55 查看详情

带你认识本地大模型框架Ollama(可直接上手) (wiki.eryajf.net)

自 OpenAI 公司于2022 年 11 月 30 日发布 ChatGPT 以来，经过 23 年一整年的发展之后，大模型的概念已逐渐普及，各种基于大模型的周边产品，以及集成层出不穷，可以说已经玩出花来了。在这个过程中，也有不少本地化的模型应用方案冒了出来，针对一些企业知识库问答的场景中，模型本地化是第一优先考虑的问题，因此如何在本地把模型调教的更加智能，就是一个非常重要的技能了。在 23 年的时候，我也接触过一些本地模型的开源项目(比如 LocalAI)，当时在本地部署跑起来之后，发现交互的体验，回答的速度，以及智能程度，都远低于预期。最近又一次了解本地模型的玩法，从微信群里了解到了 ollama，经过几天业余时间的研究及了解，发现现在模型本地化的玩法，以及能力都早已不可同日而语，本文，将记录我这几天来对于 ollama 的粗浅认识以及快速入门玩起来。

by @技术头条 2024-03-12 22:53 查看详情

使用 llama.cpp 在本地部署 AI 大模型的一次尝试 (blog.yuanpei.me)

本文旨在尝试使用 llama.cpp 在本地部署 AI 大模型，随着人工智能的快速发展，我们逐渐认识到私有化部署的重要性和潜力。在此背景下，llama.cpp 作为一个纯 C/C++ 实现的 LLaMA 模型推理工具，提供了在本地环境下高性能的 AI 推理能力。在这篇文章中，我们可以了解到 llama.cpp 具有在 GPU 和 CPU 环境下运行的灵活性，满足私有化部署的需求。文章详细介绍了 llama.cpp 编译和部署的过程，为读者提供了一份在本地部署 AI 大模型的教程。私有化部署的 AI 大模型，相比于 ChatGPT 这类通用大模型，更注重数据隐私和安全性，对云服务的依赖更少，可以做到更好的本地化控制。虽然编译 llama.cpp 有一定的复杂性，AI 大模型的下载、转化、量化需要一定的耐心，可当本地的 AI 应用运行起来的那一刻，博主觉得这一切完全值得。

by @技术头条 2024-03-12 22:29 查看详情

iOS备用机自动充电方案 (www.leavesongs.com)

炫酷一下，为了能让备用机一直有电，计划将备用机插在智能插座上，然后通过iOS的Shortcuts来监控手机电量——当手机电量小于30%的时候自动开启插座；当手机电量充到80%的时候自动关闭插座。

by @技术头条 2024-01-28 23:59 查看详情

白话 Pulsar Bookkeeper 的存储模型 (crossoverjie.top)

最近我们的 Pulsar 存储有很长一段时间数据一直得不到回收，但消息确实已经是 ACK 了，理论上应该是会被回收的，随着时间流逝不但没回收还一直再涨，最后在没找到原因的情况下就只有一直不停的扩容。

为了防止类似的问题再次发生，我们希望可以监控到磁盘维度，能够列出各个日志文件的大小以及创建时间。

这时就需要对 Pulsar 的存储模型有一定的了解，也就有了这篇文章。

by @技术头条 2024-01-17 23:10 查看详情