美团发布的LongCat-2.0是首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数MoE模型,总参数1.6万亿,动态激活33B至56B。模型原生支持1M超长上下文,采用LongCat Sparse Attention(LSA)稀疏注意力机制,将计算量从平方级降至线性级,确保在超长文本中精准定位信息。训练方面,团队通过卡间通信异常处理、弹性扩缩卡和自动故障恢复,将月均日故障率降低70%以上;自研确定性算子和Bitwise一致性验证保障正确性;通过流水线调度和显存优化,训练MFU提升1.5倍,实现稳态日吞吐超1T tokens/day。推理阶段,利用大规模专家并行聚合访存带宽,引入零计算专家机制避免不必要传输与计算,优化核心算子调度以降低延迟。架构上,MOPD多专家融合技术集成Agent、Reasoning、Interaction三组专家,由门控网络动态调度,提升编程、推理和交互能力。评测显示,LongCat-2.0在SWE-bench Pro中获59.5分,领先多个前沿模型;在办公场景任务处理中表现均衡,如RWSearch得分78.8。应用案例包括AI SQL Agent搭建、代码库迁移、完整应用开发等,展示了其在真实工作场景中作为可靠工作伙伴的潜力。整体上,LongCat-2.0验证了国产算力进行大规模模型训练的能力,并在Agentic Coding任务中高效稳定。
百度开源网络监控工具evr针对无法在目标设备(如EVR边缘虚拟路由器)部署agent或对面放置探测机的场景,设计了单边VXLAN探测方案。工具利用VXLAN协议特性:VTEP设备根据内层IP头转发解封后的帧。evr构造特殊VXLAN包,内层源和目标IP均设为探测机本机地址,使EVR解封后自动将内层帧反射回探测机,实现单边探测。同时,在payload中嵌入EVRCHECK协议头,包含目标EVR的源IP(4字节),用于回包时快速映射目标。外层源IP可配置为mock地址,实现探测机切换时无需修改EVR配置,提升运维灵活性。文章详细解析了VXLAN包结构、VTEP工作模型、evr的三招设计(自环内层帧、payload标识、外层IP欺骗),以及JSON配置驱动和Go语言实现示例,通过raw socket发送手工构造包,仅需百度侧单机部署,破解了网络监控困境。
无障碍性在软件开发中应被视为核心运营能力,而非后期功能或合规清单。AI生成代码时代加剧了无障碍性问题,因为模型倾向于输出非语义标记,如使用div代替button,导致屏幕阅读器等辅助技术无法正常解析。传统审计方法仅提供静态快照,无法适应快速迭代的开发流程;真正解决方案是“左移”策略,将无障碍性检查集成到设计阶段、代码审查和CI/CD流水线。通过设计系统(如GOV.UK示例)提供可复用可访问组件,结合自动化工具(如eslint-plugin-jsx-a11y、Pa11y)在提交前捕获缺陷。约束AI生成(通过仓库级指令)并继承可访问原语库(如Radix UI)能系统化提升质量。商业层面,无障碍性直接影响市场覆盖——全球残障人士购买力达13万亿美元,且采购要求日益严格,需提供VPAT等证明。文章论证了通过工程实践将无障碍性转化为基础设施,从而减少技术债务、加速交付并扩大用户基础。
本文聚焦前端CSS领域的最新动态。Hyperblam利用Web Components和Web Audio API,仅通过HTML实现音乐创作,展现了Web技术的创意潜力。CSS Quake通过PolyCSS将经典游戏Quake移植到CSS环境,凸显CSS在复杂视觉表现上的能力。Temani Afif详细演示了CSS Gap Decorations,用于样式化flexbox、grid等布局中的间隙,该特性长期缺失,如今提供了丰富的样式选项。Polypane实验深入探索CSS random()函数,目前仅Safari支持,实现了博克景、花瓣飘落等创意效果。Manuel Matuzović介绍field-sizing属性,使select元素宽度自适应选项内容,Firefox 152已将其纳入基线标准。Una Kravets解析现代CSS主题化标准,包括@property、light-dark()、contrast-color()和@container style(),这些特性已达基线支持,共同构建灵活主题方案。文章还讨论网站跨平台一致性,引入interest invokers、overscroll actions和Document Picture-in-Picture API等平台特性,强调适应不同输入模态的重要性。此外,报道Web Engines Hackfest活动,关注web引擎和标准未来发展方向。整体上,这些更新体现了前端CSS的持续创新和实用演进。
美团Longcat团队推出的VitaBench 2.0是首个面向长期动态用户建模的智能体评测基准,旨在评估大语言模型在真实生活场景中理解用户偏好和主动交互的能力。该基准包含56名虚拟用户、819个复杂任务和超2000个动态偏好,平均时间跨度达1580天,模拟用户行为的演进与漂移。其核心设计围绕三维解构:搭建人生副本以构建多年互动轨迹、引入时间标尺强调持续理解、设立记忆擂台对比智能体记忆与RAG记忆。实验显示,现有模型在长期任务中性能随时间下降,记忆策略并非总是有效;开启思考模式不必然提升个性化任务表现;AI普遍缺乏主动提问意愿,导致在信息不足时决策失误;即使直接提供用户偏好,模型应用能力仍不足,揭示了个性化作为智能体发展的关键瓶颈。VitaBench 2.0通过量化数据为开发者提供优化方向,推动智能体评测从单任务向长期陪伴演进,助力AI从工具进化为有温度的伙伴。该基准已全面开源,促进研究关注智能体的记忆和主动性。
作者开发了chao-rag-wiki,一个基于RAG的个人知识库skill,将775篇文章索引到4MB向量库。采用turbovec实现高效向量检索,支持混合检索模式:稠密向量处理语义相似性,BM25关键词检索确保字面匹配,通过RRF融合结果,并可选LLM重排优化排序。建索引时按chunk文本哈希去重,避免重复内容干扰。与Karpathy的llm-wiki对比,chao-rag-wiki无需AI编译,直接检索原始素材,实现零编译延迟和全量召回,适合长尾查询和专有名词;而llm-wiki将素材编译成结构化wiki文章,提供知识沉淀。文章通过实战查询验证:对于“loop engineering”,llm-wiki输出整合文章;对于“grill skill”,chao-rag-wiki成功召回冷门内容。集成方面,结合Obsidian Web Clipper自动抓取网页内容存入raw目录,定时任务自动运行增量索引,确保新内容快速可搜。该方案互补使用,兼顾全面召回和知识提炼,提升个人知识管理效率。
本文探讨了CSS伪类与JavaScript事件监听器之间的界限逐渐模糊的现象。作者详细介绍了多个CSS伪类,如:hover、:active、:focus、:focus-visible、:focus-within、:checked、:valid、:invalid等,这些伪类能够捕捉用户交互状态,从而减少对JavaScript的依赖。文章分析了表单验证相关的伪类,展示了如何通过CSS实现表单验证而无需JavaScript事件。此外,讨论了媒体元素伪类如:buffering和:paused,以及新特性如:popover-open和:fullscreen。作者还介绍了未来的event-trigger提案,这是一种允许CSS直接响应事件并触发动画的语法,通过event-trigger-name和animation-trigger属性实现。文章通过对比CSS和JavaScript在处理事件时的优缺点,强调了CSS的简化作用和JavaScript的精确控制,认为多一种实现方式总是有益的。整体上,文章提供了前端开发的实用见解,帮助开发者更好地利用CSS的能力。