IT技术博客大学习 共学习 共进步

标签:DeepSeek

共 2 篇相关文章

IT 累计浏览 3

一行代码使用 Claude Skill 和 deepseek

goskills 是一个命令行工具,旨在解决 Claude Skills 只能在其原生环境中使用的问题,允许开发者在任何应用中集成和调用这些 Skill。该工具最近更新至 v0.1.3 版本,进一步简化了调用流程。用户只需在命令行执行一句 `goskills run` 并附带相应提示,即可调用指定的 Skill,例如使用扩展后的 `markitdown` Skill 将特定网页转换为 Markdown 格式。 工具支持通过包管理器或下载二进制文件进行安装,并提供了丰富的配置选项,如指定模型名称、API 地址和 Skill 目录,这些参数可通过命令行参数或环境变量设置。文章以 `markitdown` 为例,展示了如何扩展官方 Skill 以增强网页处理能力。 核心优势在于其极简的集成方式:开发者无需在自身应用中编写复杂的 LLM 交互与 Skill 解析逻辑,只需在程序中构造并调用相应的 `goskills run` 命令即可。文章提供了 Shell、Python、JavaScript、Go、Java、Rust、C++ 和 C 等多种编程语言的调用示例,演示了如何在不同技术栈中便捷地利用 goskills 执行 Skill。

IT 累计浏览 1

理解大语言模型 - 读《图解 DeepSeek 技术》

《图解 DeepSeek 技术》以图文并茂的方式,将大语言模型的核心技术难点进行了直观化解构。作者通过阅读,梳理出三个关键概念及其个人理解。首先是缩放定律,即通过增大参数量、数据量与计算量来提升模型性能,其表现符合幂律分布,与自然界的“量变引发质变”现象类似,模型在规模达到临界点后会产生“涌现”智能。其次,为突破单纯堆砌规模的局限,研究人员引入了“深度思考”模式,让模型在生成阶段消耗更多计算资源进行类似人类“慢思考”的深度推理,从而显著提升答案质量。最后,文章阐述了蒸馏技术,它允许庞大的教师模型(如DeepSeek-R1)将其推理能力迁移给更小的学生模型,这一过程好比“师徒学习”,使小模型在有限参数下也能掌握复杂思维模式,极大提升了模型的实用性和部署效率。