文章列表

美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService

美团技术团队
美团 LongCat 团队正式发布——「WOWService 大模型交互系统技术报告」,深度拆解了 「数据与知识双驱动」「自我优化训练」「四阶段训练流水线」「多 Agent 协同」 四大核心技术框架,希望对行业发展提供参考与启发。 阅读全文

美团 LongCat 团队发布全模态一站式评测基准 UNO-Bench

美团技术团队
美团 LongCat 团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架,不仅能同时精准衡量模型的单模态与全模态理解能力,更首次验证了全模态大模型的“组合定律”——该定律在能力较弱的模型上呈现为短板效应,而在能力较强的模型上则涌现出协同增益,为行业提供了一种全新的、跨越模型规模的分析范式。 阅读全文

美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

美团技术团队
针对 Speech LLM 落地中的音频处理难题,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 Token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。真正让语音大模型既 “听懂” 语义,又能够“说清” 。 阅读全文

LongCat-Flash-Omni正式发布并开源:开启全模态实时交互时代

美团技术团队
美团 LongCat-Flash 系列再升级,美团正式发布全新家族成员 LongCat-Flash-Omni,在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型。 阅读全文

美团 LongCat 团队发布 VitaBench:基于复杂生活场景的交互式 Agent 评测基准

美团技术团队
美团 LongCat 团队研发的 VitaBench(Versatile Interactive Tasks Benchmark)正式发布,这是当前高度贴近真实生活场景所面临复杂问题的大模型智能体评测基准。VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计,例如要求 agent 在一个旅行规划任务中通过思考、调用工具和用户交互,完整执行到买好票、订好餐厅的终端状态。 阅读全文

LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

美团技术团队
美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源最先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。 阅读全文

LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

美团技术团队
美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA)。 阅读全文

LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型

美团技术团队
SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化。 阅读全文

美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

美团技术团队
我们正式发布 LongCat-Flash-Chat,并同步开源。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。 阅读全文