从「能用」到「好用」：LLM 流式响应实现方式的探索之路

元视角 2026-06-03 09:03:24 累计浏览 121 次

本机暂存

内容概览

在LLM应用开发中，Server-Sent Events已成为实现流式响应的事实标准，它基于HTTP协议轻量地实现实时数据推送。文章深入探讨了如何将SSE接口从基础的“能用”状态优化至“好用”层面。传统请求-响应模式需等待完整生成结果，而流式输出能实时展示模型的思考过程、工具调用及逐字生成内容，显著提升交互体验。基础实现虽简单——仅需设置正确的Content-Type和逐块写入事件流，但生产级应用需解决事件抽象、组件复用及优雅取消请求等挑战。作者通过实际编码演示，逐步拆解设计思路，引导读者掌握构建高效、可维护流式响应架构的方法，最终实现从功能演示到工程化实践的跨越。

你在屏幕上看到 AI「正在输入」的光标时，有没有想过：这几个字节是怎样跨越千山万水，在屏幕上一个个「蹦」出来的？当 ChatGPT、Kimi、Claude 们用流式的方式「打字」给你看时，这种近乎人类的交互体验背后，藏着一个不起眼却至关重要的技术——Server-Sent Events（SSE）。它不像 WebSocket 那样大名鼎鼎，却在 AI 时代成为了事实上的标准。诚然，在 ASP.NET Core 中实现一个「能工作」的 SSE 接口，仅仅需要十分钟。但是，如果要实现一个「好用」的 SSE 接口——支持事件抽象、复用性好、能优雅地取消，你需要多久呢？本文将为你拆解这个挑战，展示如何整个设计从「能用」走向「好用」。当 AI 开始「思考」试想这样一个场景：用户向 Agent 提问「讲一个关于小狐狸的故事」。传统的 HTTP 请求-响应模式下，服务器需要等待大语言模型生成完整回答后，再能将结果返回给用户。这意味着用户可能要盯着屏幕等待十几秒后，才能看到完整的答案。但是，在真实的产品体验中，我们期望看到的是：Agent 首先展示它的「思考过程」——它如何理解用户意图、如何规划回答策略；然后是工具调用的实时反馈——搜索资料、查询数据库；最后才是回答内容的逐字输出。这种「实时可见」的体验，远比「等待-呈现」的模式更加自然和引人入胜。 SSE 正是实现这种体验的关键技术，它基于 HTTP 协议，允许服务器主动向客户端推送数据，相比 WebSocket 更加轻量，且能复用现有的 HTTP 基础设施。对于 LLM 流式输出这类场景，SSE 几乎是完美的选择。第一阶段：最朴素的实现一切的开始，是一段朴实无华的代码。博主直接在控制器中拼接 SSE 格式的字符串，然后写入响应流： [HttpGet("chat")] public async Task ChatStream(CancellationToken cancellationToken) { Response.ContentType = "text/event-stream; charset=utf-8"; Response.Headers["Cache-Control"] = "no-cache"; Response.Headers["Connection"] = "keep-alive"; foreach (var chunk in GenerateText()) { string message = $"data: {JsonConvert.SerializeObject(new { text = chunk })}\n\n"; await Response.

同分类推荐文章

SmartPerfetto 2026.06.04-07.17 六周更新复盘：从 v1.0.28 到 v1.1.1 （2026-07-17 00:00:00）
用 CLIProxyAPI 把 Codex 变成一个 OpenAI 兼容的 API 服务（2026-07-12 22:05:00）
读完 Bun 用 Rust 重写：1 个人 11 天重写 50 万行代码是怎么做到的（2026-07-12 08:00:00）

查看更多后端文章 →

建议继续学习

00 卷首语：当 Karpathy 说他半年没写一行代码（累计阅读 203）
LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆（累计阅读 149）
读完 Bun 用 Rust 重写：1 个人 11 天重写 50 万行代码是怎么做到的（累计阅读 146）
微博 × MCP：社交媒体新玩法解锁（累计阅读 124）
ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式（累计阅读 119）
Understand-Anything：代码知识图谱（累计阅读 108）
Agent Loop 简介（累计阅读 86）
LLM 究竟是如何工作的？（累计阅读 98）