传统 MoE 架构通常通过增加专家数量来提升模型能力,但随着专家数量增加,会面临边际收益递减和系统通信开销上升等问题。美团 LongCat 团队通过全面的分析与实验发现:嵌入扩展相比专家扩展能获得更优的帕累托前沿。这意味着嵌入扩展在特定条件下相比专家扩展能实现更优的效能边界。

基于这些洞见,我们正式推出 LongCat-Flash-Lite —— 一款拥有 685 亿参数,每次推理仅激活29亿~45亿参数的轻量化 MoE 模型。通过将超过 300 亿参数高效用于嵌入层,LongCat-Flash-Lite 不仅超越了参数量等效的 MoE 基线模型,还在与同规模现有模型的对比中展现出卓越的竞争力,尤其在智能体与代码领域表现突出,并依托 YARN 技术可支持最长 256 K上下文,能高效处理长文档、大规模代码分析等场景。同时,该模型基于嵌入扩展的应用与系统级优化,让模型推理效率大幅提升,在输入 4K,输出 1k 的典型负载下,LongCat API 可提供 500-700 token/s 的生成速度。

01 更优的扩展效率:从“堆专家”到“扩嵌入”

N-gram嵌入层的核心作用在于增强模型对局部上下文语义的捕获能力。它通过哈希函数,将当前token及其前序的N-1个token所构成的序列映射为一个整体的N-gram嵌入向量,并与该token的基础嵌入向量融合。举个例子,当模型看到 “打开终端输入命令”,就不会误解成日常的 “打开文件”,而是能精准锁定 “编程” 这个场景,显著提升了语义理解的精准度。

在生成N-gram嵌入向量的过程中,关键挑战在于避免哈希冲突,即不同的N-gram序列被映射到同一个向量。为此,LongCat团队采用了两个关键设计:

  • 子表分解与线性投影:将大型的N-gram嵌入表拆分为多个子表,并分别进行线性投影变换,此举可大幅降低哈希碰撞的概率。
  • 词汇表大小避坑:N-gram嵌入表的词汇表大小需要仔细设计以降低哈希碰撞率。此外,通过引入嵌入放大技术(如在输出前添加缩放因子或层归一化),确保了嵌入层提供的语义信号在深层网络的残差连接中不会被注意力模块的输出所淹没,从而保障了其贡献在整个前向传播过程中的有效性。

02 卓越的推理效率:三重优化实现极致加速

N-gram 嵌入层不仅能提升模型能力,其结构特性还为推理加速提供了新方向。尽管模型总参数量达 685 亿,但通过动态激活机制,每次推理仅激活29亿~45亿参数。为进一步放大这一稀疏优势,我们在系统层面进行了三重核心优化:

  • 参数智能分配:我们将 31.4B 参数(占总参数 46%)投入 N-gram 嵌入层。相较于单纯增加 MoE 专家数量,此方案在达到高模型稀疏度后,既能有效减少专家模块间的通信与调度开销,又得益于嵌入层 O(1) 的查找复杂度,避免了参数扩容带来的计算线性增长。
  • 专用缓存与内核优化:我们设计了 N-gram Cache 专用缓存机制(灵感源于KV Cache),直接在GPU设备上管理 N-gram ID,与推理框架中复杂的动态调度逻辑实现低开销同步,大幅降低嵌入查找的I/O延迟。同时,通过定制CUDA内核及广泛的内核融合(如 AllReduce+Residual Add+RMSNorm、路由器Logits的Softmax+TopK+Scaling融合)与 PDL(Programmatic Dependent Launch) 等技术,提升GPU占用率,减少内核启动间隙。
  • 推测解码协同:为充分发挥稀疏激活优势,我们将其与 推测解码 策略深度协同。通过3步的投机推理,扩大了实际的批次大小,利用到了低激活总参的特性,同时针对草案模型(draft model)延迟敏感的特性,让其使用常规嵌入层以规避N-gram查找计算的开销,进一步提升了推理性能。

总结而言,通过参数重分配奠定稀疏基础、专用缓存与内核优化消除系统开销、与推测解码策略深度协同,LongCat-Flash-Lite 实现了从模型结构到运行时系统的垂直优化,最终将 N-gram 嵌入带来的理论优势,有效转化为高吞吐、低延迟的实际推理性能。

03 性能表现:智能体工具使用与编程能力双领先

LongCat-Flash-Lite 在智能体工具使用与编程任务上均展现出领先性能:τ²-Bench 三大行业场景高分领先,编程领域覆盖全链路能力,在代码修复、终端执行、多语言开发等任务上表现优异。

智能体任务表现

在评估复杂工具使用与工作流执行的基准上,模型表现突出: - τ²-Bench行业场景:在电信(72.8分)、零售(73.1分)、航空(58.0分)三大子场景中均取得最高分,表明其能有效理解并执行涉及专业工具的复杂指令。 - VitaBench通用场景:以7.0分领先于对比模型,验证了其在多样化现实任务中的实用工具调用能力。

代码任务表现

在衡量编程实用技能的基准上,模型展现出强劲的问题解决能力:

  • 代码修复(SWE-Bench):54.4%的准确率显著领先于同规模对比模型,证明其处理真实软件工程问题(如修复bug、实现特性)的有效性。
  • 终端命令执行(TerminalBench):33.75分的表现远超对比模型所处的15-20分区间,体现了对开发者工作流中命令行操作的高精度理解。
  • 多语言代码生成(SWE-Bench Multilingual):38.10%的准确率展现了跨编程语言与软件生态的较好泛化能力。

通用知识及推理能力

模型在综合评估中保持了与规模相匹配的均衡性能:

  • 综合知识(MMLU):85.52分,与Gemini 2.5 Flash-Lite(84.68)相当。
  • 中文理解(C-Eval & CMMLU):分别取得86.55分与82.48分,在中文评估中具备一定优势。
  • 复杂推理(MMLU-Pro, GPQA-Diamond):78.29分与66.78分的表现,显示了处理高阶、多学科问题的能力。
  • 数学推理(MATH500, AIME):在基础(96.80%)与竞赛级数学问题(AIME24:72.19; AIME25:63.23)上均表现稳健,擅长多步推演。

轻量,不“轻”性能:开源与体验,即刻开始

LongCat-Flash-Lite 的实践,为大模型的高效扩展提供了一种新的可能性:通过 N-gram 嵌入系统级优化的协同设计,我们得以用29亿~45亿的动态激活参数,在智能体与编码等关键任务上,实现与更大模型比肩的竞争力。

技术的生命力源于开放与协作。因此,我们已全面开源模型权重及技术细节,诚邀每一位开发者体验、研究与共建。

开源平台

LongCat 系列模型一直遵循的是 Model System Co-Design 的设计原则,因此对于训练和推理系统都提出了独特的挑战。为了让社区能够更好地使用 LongCat 模型,我们对推理引擎的部分功能(SGLang-FluentLLM)和部分算子也同步进行了开源,欢迎体验:

在线体验与调用

我们已向开发者开放 LongCat-Flash-Lite 版本 API 接口,可登录 LongCat API 开放平台申请,每日免费额度高达5000万tokens。(目前暂不限额,欢迎试用)

我们期待与社区一起,探索大模型高效落地的更多可能。欢迎 Star、Fork、反馈与合作。