文章列表

LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代

美团技术团队
美团 LongCat-Flash 系列再升级,美团正式发布全新家族成员 LongCat-Flash-Omni,在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型。 阅读全文

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

美团技术团队
本文介绍了美团技术团队在国际顶会 ICCV 2025 中发表的 5 篇论文。同时,在ICCV 2025 举办的多模态推理竞赛中,美团基础研发平台/计算和智能平台组建的 ActiveAlphaAgent 团队,斩获赛题 1 真实场景视觉定位(VG-RS)冠军,赛题 2 空间感知视觉问答(VQA-SA)季军和赛题 3 创意广告视频视觉推理(VR-Ads)季军。本文也分享了这三道赛题的解题思路,希望相关研究能给同学们带来一些帮助或启发。 阅读全文

LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

美团技术团队
美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。 阅读全文

可验证过程奖励在提升大模型推理效率中的探索与实践

搜推平台部
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM 通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。 阅读全文

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

美团技术团队
美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。 阅读全文

开源 | InfiniteTalk:无限长虚拟人视频生成的新范式

美团技术团队
为解决虚拟人长视频生成的质量退化问题,美团基础研发平台/视觉智能团队推出了 InfiniteTalk 技术,实现无限时长视频生成。已在 GitHub 开源并获 1.6K Stars,Hugging Face 月下载量 64.8K,受到了很多好评,能够应用到电商直播、教育、影视等领域。 阅读全文

LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型

美团技术团队
SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化。 阅读全文

美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

美团技术团队
我们正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。 阅读全文

美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的“听话”能力

美团 M17 团队
针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks,并在GitHub、Huggingface、魔搭社区等开源平台上线。 阅读全文

联合营销生态下的广告机制设计与实践

商业增值技术部
即时零售行业蓬勃发展,在此生态下美团零售广告成为助力零售商家和品牌商扩大生意规模的重要驱动力。文章首先介绍了在全新业务模式“联合营销”场景下,首创的多协同方参竞拍卖机制算法——“集资拍卖”,然后梳理了集资拍卖在美团的技术发展路径和实践,围绕规则化集资拍卖、模型化集资拍卖、整体集资拍卖进行了展开,最后是一些总结,希望能对大家有所帮助或启发。 阅读全文

ACL 2025 | 美团技术团队论文精选

美团技术团队
本文介绍了美团技术团队在国际顶会ACL 2025中发表的8篇论文,研究方向覆盖了生成式检索算法、多目标偏好对齐训练、富文本图像理解、搜索词推荐、跨语言迁移能力、多模态数学推理、第三人称任务等技术领域,希望相关研究能给同学们带来一些帮助或启发。 阅读全文

美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平

Meituan-M17
Meituan-M17 团队联合上海交大等机构,分别推出了 OIBench(聚焦高区分度算法题评测)与 CoreCodeBench(聚焦多场景工程级代码基准)两大数据集,旨在揭示大模型编程能力真实水平,这两大数据集已分别在GitHub和Huggingface上进行开源。 阅读全文

开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎

美团视觉智能部
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在GitHub上开源,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性地采用局部参数训练+多任务学习策略,在保留复杂动作指令跟随能力的同时,实现自适应动态人物定位。只需输入多人音频流、参考图像和文本提示,即可生成口型精准同步、肢体自然的交互视频,可支持影视制作、直播电商等场景的工具升级。 阅读全文

MTGR:美团外卖生成式推荐Scaling Law落地实践

业务研发平台
美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。 阅读全文

OR算法+ML模型混合推理框架架构演进

业务研发平台
本文介绍了OR算法+ML模型混合推理能力建设思路及业务背景,此场景相比常规模型推理更具特殊性和复杂性,在工程实现上面临多维挑战,因此本文分别从性能、稳定性和扩展性三个维度分析问题和解法,并以推理框架架构演进为线总结了过去两年的分期迭代实践历程和收益,其中有一些较为通用的经验,希望能够给大家带来一些帮助或启发。 阅读全文

ICLR&CVPR 2025美团技术团队论文精选

美团技术团队
本文对美团技术团队在国际顶会CVPR 2025、ICLR 2025中发表的10篇论文进行介绍,这些论文是我们在图像生成、通用视觉分割、多模态文档理解、视频理解大模型、大模型效果评估、大语言模型的对齐和量化方法等方向上的技术沉淀和应用。 阅读全文

老显卡福音!美团开源首发INT8无损满血版DeepSeek R1

搜索和推荐平台部
DeepSeek R1模型权重原生为FP8类型,仅能被英伟达新型GPU支持。美团技术团队进行了INT8精度量化的尝试,量化后模型精度基本无损,可部署到A100等其他型号GPU,从而解锁了芯片限制;相比BF16实现了50%的吞吐提升,降低了推理成本。相关技术已在Hugging Face上开源。 阅读全文

上下文感知的聚合页广告优化实践

商业增值技术部
聚合页广告将商家和优惠信息以多种形式聚合展示给用户,是美团广告业务中一个重要的业务场景。本文从最能影响用户决策的“发券”和“排序”两个方向出发,介绍了上下文感知建模在广告场景的落地方案,证明了聚合页上下文感知的收益空间。希望能对从事相关研究的同学带来一些启发或帮助。 阅读全文

行为正则化与顺序策略优化结合的离线多智能体学习算法

履约平台技术部
离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战,仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,并取得了一些的成果,希望分享给大家。 阅读全文

CIKM 2024 | 美团技术团队精选论文解读

美团技术团队
本文精选了美团技术团队被 CIKM 2024 收录的 8 篇论文进行解读,覆盖了自监督学习、解释生成、CTR预测、跨域推荐、向量召回、图像生成、时效预测等多个技术领域。这些论文有美团独立研究,还有跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。 阅读全文