美团技术团队 -- IT技术博客大学习 -- 共学习共进步！

首页 / 美团技术团队

IT 2026-06-22 16:40:38 / 累计浏览 100

美团海报生成 AIGC 技术创新与实践

美团平台数百万商家面临海报设计资源匮乏、交付时效苛刻、内容同质化及批量质量失控等困境。AIGC技术为创意平权带来可能，但生成商业可用海报需克服精准文字渲染、和谐版式布局、统一美学风格、多任务场景支持及质量可量化评估等挑战。美团智能创作团队构建了PosterCraft、PosterOmni和PosterReward三大系统形成技术闭环。PosterCraft采用端到端优化，通过四阶段级联训练（包括大规模文字渲染优化、高质量海报微调、美学强化学习及视觉反馈精炼）显著提升文字渲染准确率，接近闭源商业系统水平。PosterOmni针对多任务设计需求，将扩图、补全、比例调整等六类任务统一于单一模型，通过专家训练、任务蒸馏及统一奖励模型进行强化学习，缓解任务冲突并提升编辑与创作能力。PosterReward作为首个海报质量评估奖励模型，构建自动化偏好数据集并通过四阶段级联训练，在专项基准上达到86%准确率，为生成模型提供优化信号并承担线上质检。三项工作全部开源，并在美团外卖套餐图生成、品牌IP设计等业务中落地，有效提升海报生产效率和质量。

本机暂存

IT 2026-06-15 15:10:12 / 累计浏览 60

从月球漫步到赛博都市，WBench 测出了世界模型的边界

WBench由美团LongCat团队开发，是首个针对交互式视频世界模型的系统性多轮评测基准。该基准包含289个测试案例和1058个交互轮次，覆盖多种世界定义和指令集，如未来城市和油画场景，支持第一人称和第三人称视角。通过测试Kling 3.0、HY-World 1.5等20个前沿模型，发现无全能模型：文本驱动模型擅长场景理解，专用世界模型在交互控制上突出。导航能力与视频画质等其他维度相关性低，依赖独立的空间状态表示；多轮交互中导航能力平均分下降33点，表明位姿误差累积是结构性缺陷。开源模型如HY-World 1.5在导航能力上表现优异。WBench基于世界定义、指令集、统一交互接口和评测套件四大要素构建，实现从被动生成到主动交互的范式转移，其自动评分与人类偏好高度一致，Spearman相关系数达0.94，验证了可靠性。评测维度包括视频质量、设定遵循度等，为世界模型研究提供标准化工具。

本机暂存

IT 2026-06-15 14:40:05 / 累计浏览 140

美团 BI 在指标平台和分析引擎上的探索和实践

美团BI平台构建了以指标平台为核心的新一代架构，解决传统BI中数据口径混乱、查询性能差等问题。核心能力包括自动语义和增强计算。自动语义实现“定义即研发”，将业务语言解析为结构化逻辑表达，通过主外键关联数仓模型自动形成星型、雪花模型，扩展复杂指标，并贯穿指标定义、模型关联、指标高亮、路由选表及查询语义构建全流程。增强计算通过智能查询服务支持多引擎模型和查询降级策略，以及智能物化自动构建宽表和汇总表，平衡运营监控秒级响应与灵活分析的大数据处理需求。平台还探索增量计算引擎，利用存算分离、弹性伸缩等特性提升性能与稳定性。目前该平台已支持百余业务线，查询量达百万级，成功率超99.9%，并在新引擎评测中验证性能优势。未来将继续深化自动语义和增强计算，推动数据分析智能化。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 80

ACL 2026美团论文精选：从能力评测到推理优化，构建生成新范式

本文精选了ACL 2026会议中6篇与大语言模型相关的论文，聚焦能力评测与推理优化新范式。CoreCodeBench提出细粒度代码智能评测框架，通过仓库级任务解耦评估模型编程能力，覆盖开发、修复等场景，有效性达78.55%。SOP-Maze基于真实业务数据构建复杂标准操作流程评估，分类为侧根和主根系统，揭示模型在深度逻辑推理中的不足，易犯路线盲区和对话脆弱性错误。AMO-Bench设计50道高难度数学竞赛题，确保原创性和奥数级别，评测显示最强模型准确率仅52.4%，凸显推理提升空间。研究过度思考现象，分析推理动态并提出推理完成点检测器，减少冗余生成token。MASPO针对强化学习优化，引入软高斯门控、质量自适应限制器等方法，提升训练稳定性和样本效率。FLR将隐式推理分解为多因子注意力模块，优化生成式推荐性能。这些工作共同推动了大模型在复杂任务中的评测与优化，为未来研究提供关键方向。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 40

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

本文分享了一个团队在90%代码由AI生成、系统代码量膨胀至31万行的背景下，如何通过实践管理AI Coding并完成大规模重构的实战经验。文章指出，若无统一规范约束，AI Coding会加速代码腐化。团队提出了三个核心经验：一是借鉴Agent评测的“人人对齐→人机对齐”理念管理AI Coding，先通过规范拉齐团队共识，再将共识转化为AI可执行的约束；二是AI正在重新定义“经验”价值，从依赖人力“看全”代码转向借助AI快速识别问题并由人判断优先级；三是技术债可像业务需求一样，通过拆解到日常迭代中渐进式消化。重构执行路径包括：利用AI辅助定向梳理技术债、制定AI友好研发规范（如工程分层规约）并落地为AI Rule、通过SOP指导AI完成工程解耦、借业务需求平滑升级数据模型，以及建立Pre-PR机制和AI辅助测试用例生成规范以保证质量。整个过程强调规范是AI Coding时代阻止系统腐化的基础设施，为类似场景提供了可复用的方法。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 40

美团发布原生多模态 LongCat-Next：当视觉和语音成为AI的母语

美团开源的LongCat-Next探索了物理世界AI的统一建模路径，旨在让AI像处理语言一样原生处理图像、语音和文本。核心创新在于DiNA（离散原生自回归架构），将所有模态映射为同源的离散Token，并通过下一个Token预测范式进行统一建模，打破了传统多模态模型的拼凑式架构，实现理解与生成的对称优化。dNaViT视觉分词器支持任意分辨率图像编码，利用8层残差向量量化实现28倍像素压缩，同时保持细节保真。语义对齐完备编码器通过大规模视觉-语言监督学习高信息密度表征，结合多级RVQ减少离散化损失，确保离散Token的语义完整性。实验表明，LongCat-Next在细粒度视觉理解、图像生成和音频任务上达到或超越专用模型，如OmniDocBench和MathVista基准上表现优异，同时保持语言能力，在工具调用和代码生成上也有提升。模型开源促进社区发展，推动原生多模态智能走向更远。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 40

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术

LongCat-AudioDiT 是美团 LongCat 团队推出的端到端文本转语音模型，专注于零样本语音克隆。传统 TTS 系统依赖梅尔频谱等中间表征，导致信息损失和误差累积。该模型创新性地在波形潜空间直接生成，使用 Wav-VAE 将波形压缩为 64 维隐向量，帧率 11.7Hz，通过多级 Oobleck 块和非参数捷径实现高效下采样与稳定训练，优化目标融合多分辨率 STFT 损失等对抗损失。扩散 Transformer（DiT）在隐空间学习条件流匹配，文本编码采用 UMT5 并结合第一层和最后一层隐藏状态以增强语义对齐，同时引入 ConvNeXt V2 模块细化表征。推理机制有双重突破：强制重置提示区域隐变量解决训练-推理不匹配问题，自适应投影引导（APG）替代传统无分类器引导，通过分解引导信号避免音质过饱和。实验表明，在 Seed 基准测试中，LongCat-AudioDiT 取得当前最优的说话人相似度，例如 Seed-ZH 测试集达 0.818，同时保持高可懂度，错误率低。模型以纯波形建模证明绕过中间表征的可行性，并开源促进技术发展。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 40

从高拟真到真可用，LongCat-Video-Avatar 1.5 正式开源

美团开源LongCat-Video-Avatar 1.5，这是一个商业级数字人视频生成模型，在唇形同步、长视频稳定性、多人互动和推理效率上实现全面升级。模型通过将音频编码器从Wav2Vec2升级为Whisper-large，提升音素捕捉精度，使唇部运动更精准平滑，全身动作协调性增强，减少长视频中的抖动和身份漂移。数据体系采用多阶段处理，包括离线标注和在线验证，并构建多人、静默和情绪数据增强，提升模型在复杂场景中的泛化能力。推理优化引入DMD蒸馏技术，将生成步骤从50步压缩至8步，效率提升约15倍，并使用LoRA适配器降低显存开销。逐帧级GRPO偏好对齐进一步优化手部稳定性和动作连续性。性能评测基于EvalTalker基准，由770名评估者参与，结果显示模型在物理合理性、时间稳定性、身份一致性和音视频协调性上领先闭源系统，单人场景得分3.336，多人场景得分2.730，主体变形问题率23.1%，跳帧问题率0.8%。开源旨在促进社区共建，推动数字人视频技术从实验室走向真实应用。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 60

美团 LongCat 开源 General 365：树立推理评测新标尺

美团LongCat团队开源General 365，这是一个针对大语言模型通用推理能力的创新基准。当前大模型在学科推理任务如数学和编程中表现优异，但面对日常逻辑问题时却常缺乏常识，暴露了评测体系的缺陷：过度依赖专业知识记忆，而非真实逻辑推演能力。现有基准如BBH面临模板化和性能饱和问题。General 365通过365道人工原创题目及1095个扩展变体，系统覆盖复杂约束、分支枚举、时空推理等八大挑战类型，知识范围严格限定在K-12水平，以解耦推理与知识检索，纯粹评估模型的逻辑能力。基准设计强调高多样性、高挑战性，并经过严格人工质检和混合评分确保可靠性。实测26款主流模型显示，Gemini 3 Pro以62.8%准确率领先，但仅2款模型及格，揭示了模型在语义干扰和最优策略维度上的普遍短板。跨基准对比表明，模型在该基准上准确率显著下降，输出长度增加，证实其难度源于深层逻辑链条。该项目旨在树立推理评测新标尺，推动大模型向具备通用推理能力的智能体演进，填补了现有评测空白。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 60

LARYBench 发布：定义具身动作表征 ImageNet，首次度量从人类视频学习的泛化表征

具身智能领域面临带动作标注数据稀缺的挑战，机器人泛化能力受限。LARYBench 作为首个系统化评测基准，针对隐式动作表征进行量化评估，旨在从大规模人类视频中学习通用动作语义。该基准通过多粒度动作定义，包括本体动作、原子语义动作和复合语义动作，覆盖超过100万段视频、151种动作类型和11种机器人形态，构建了多样化数据集。评测采用浅层探测头验证表征质量，涵盖动作回归和分类任务。实验对比了隐式动作模型、通用视觉编码器等四类范式，结果表明通用视觉模型如 DINOv3 在动作泛化和控制精度上显著优于专门模型，揭示了动作表征可从海量视觉预训练中涌现。这一发现验证了人类视频数据在驱动规模化学习中的潜力，为具身智能突破数据瓶颈、走向数据驱动范式提供路径。LARYBench 开源了数据集和代码，促进社区协作，加速动作表征研究迭代。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 60

LongCat-Flash-Prover：AI 攻克数学定理证明，不仅要“算得对”，更要“证得严”

LongCat-Flash-Prover是专为数学定理证明设计的大语言模型，旨在从“猜答案”转向“严谨证明”。它采用形式化语言Lean4，将证明过程拆解为自动形式化、草稿生成和证明生成三大原子能力。通过混合专家迭代框架，模型在冷启动和迭代阶段训练不同专家，并结合工具集成推理（TIR）来优化证明质量。在数据合成中，采用课程学习模式，从简单完整证明过渡到复杂引理式草稿证明，提高推理效率。模型还引入多个验证工具，如Lean4 Server、语义一致性检查和Theorem一致性，确保生成证明的语法正确性和语义一致性，防止作弊行为。实验结果表明，LongCat-Flash-Prover在MiniF2F-Test上以72次预算达到97.1%通过率，超越现有开源模型；在MathOlympiad-Bench等竞赛级任务上也取得显著进步。该模型已全面开源，不仅受到AI研究者关注，还引起了数学界的兴趣，有望成为数学研究和教育的基础设施，促进形式化数学的范式创新。

本机暂存

IT 2021-02-13 23:28:58 / 累计浏览 2,380

AIOps在美团的探索与实践——故障发现篇

这篇讲的是美团如何将AIOps（智能运维）落地到故障发现环节。文章从自动化运维的瓶颈说起，指出传统基于固定规则的监控在海量、多变的指标面前力不从心，而AIOps通过机器学习从数据中自动学习规则，是更进一步的解决方案。美团规划了一条从单点能力到流程化、免干预的AIOps演进路径，并强调了SRE、开发与算法三类团队的紧密协作。他们首先聚焦于故障管理体系中的“故障发现”，因为它直接影响告警的准确性和效率。核心实践在于解决海量时序指标的自动分类问题。团队发现，不同形态的指标（如周期型、平稳型）需要不同的告警策略。通过探索，他们最终采用卷积神经网络（CNN）对指标进行自动分类，准确率超过95%，从而能为指标智能匹配合适的异常检测算法。这不仅降低了人工配置成本，也提升了告警信噪比，为后续的告警收敛、故障定位等环节奠定了智能化基础。

本机暂存

IT 2021-02-13 23:27:09 / 累计浏览 2,100

对话任务中的“语言-视觉”信息融合研究

这篇讲的是如何让AI在视觉对话中更“会看眼色”。研究者们针对“目标导向的视觉对话”任务发现，现有模型有个明显短板：对话中的回答（比如“是”或“不是”）对视觉注意力的引导作用太弱。当回答改变时，AI的目光焦点本该相应转移，但旧方法往往只是简单地拼接语言和图像特征，没能突出这种动态调整。为此，北京邮电大学与美团AI团队合作提出了一个“响应驱动的视觉状态估计器”（ADVSE）。这个模型的核心在于两个新机制：一个是“答案驱动的注意力更新”，它能根据当前回答是肯定还是否定，来决定是聚焦当前物体还是转移目光搜索新目标；另一个是“条件视觉信息融合”，可以自适应地混合图像的全局信息和差异信息。这使得模型能像人一样，根据对话进展灵活调整“看图”的策略。在国际通用的GuessWhat?!数据集上，这个ADVSE模型在问题生成和回答任务上都取得了当时的最佳成绩。它让机器在需要通过多轮对话寻找目标物体（比如从一堆物品里找出某个）时，对话策略更有效率，也为智能助手或交互机器人等应用提供了更扎实的技术基础。

本机暂存