
ACL 2026 精选论文分享:美团履约团队前沿技术专场
团队介绍
美团业务研发平台/履约 AI 算法团队,聚焦构建大模型为基础的 Agent 技术体系,用 AI 赋能美团履约业务, 构建 Agent 自进化的运营系统。在大模型 CPT、Post-training、Agentic RL 以及多模态理解等核心前沿方向持续深耕,已在 ACL、EMNLP 等AI领域的国际顶会发表数十篇高质量研究成果。本文分享了美团履约团队专场聚焦 ACL 会议论文以及前沿技术实践。
01 GeoRA: Geometry-Aware Low-Rank Adaptation for RLVR
低秩高效:冻结残差分量,高效稠密计算
论文下载:PDF

论文简介:基于可验证奖励的强化学习(RLVR)是提升大规模推理模型能力的关键范式。与监督微调(SFT)不同,RLVR 展现出截然不同的优化动力学,其对预训练几何结构的保持高度敏感。然而,现有的参数高效方法在这一范式下面临着关键的局限性。一方面,像 PiSSA 和 MiLoRA 这样的低秩适配方法主要面向监督微调设计,未能考虑到 RLVR 独特的优化动力学与几何结构;直接将它们应用于 RLVR 往往会导致谱塌缩和训练不稳定。另一方面,直接去微调那些受 RLVR 青睐的非结构化稀疏参数子空间,又会在现代硬件上遭遇效率瓶颈。
为解决这些挑战,我们提出了 GeoRA(几何感知低秩适配),一种专为 RLVR 定制的低秩适配方法。具体而言,GeoRA 利用了 RL 更新子空间的各向异性与可压缩结构,并通过奇异值分解(SVD)提取其主方向来初始化低秩适配器。在 RLVR 训练期间,残差分量被冻结作为结构锚点。该设计既保留了预训练结构,又实现了高效的稠密计算。在参数规模从 1.5B 到 32B 的 Qwen 和 Llama 模型上的实验表明,GeoRA 在数学、医学和代码等 RLVR 场景中持续优于强有力的低秩基线方法,同时在域外任务上展现出更强的泛化能力和更少的遗忘。
02 Efficient Paths and Dense Rewards: Probabilistic Flow Reasoning for Large Language Models
Infra的引擎是数学:离散推理步骤建模为连续概率流,推动推理过程是逼近目标的“速度向量”
论文下载:PDF

论文简介:高质量的思维链(CoT)在激发大语言模型推理能力方面展现出了巨大的潜力 。然而,现有的推理范式通常将推理过程视为不可分割的序列,缺乏量化每一步信息增益的内在机制 。这种细粒度的缺失导致了两个关键瓶颈:一是在缺乏明确引导的情况下,模型容易进行冗余探索,造成推理效率低下;二是由于结果监督信号稀疏或外部验证器成本高昂,导致模型优化困难 。
为解决上述问题,本论文提出了一种名为 CoT-Flow 的全新理论框架,将离散的推理步骤重新概念化为连续的概率流 。受整流流(Rectified Flow)理论的启发,该框架将推理过程建模为将模型的信息状态从初始问题平滑传输到真实答案的连续过程 。在此视角下,每一个推理步骤都被视为一个推动推理过程逼近目标的“速度向量”,以严格量化每一步对生成最终正确答案的瞬时信息增益 。基于这样的量化指标,实现了一种基于对比解码的贪心解码策略,回答长度平均减少 10% ~ 15%,并且在 AIME24 上能够获得高达 15.9% 的准确率提升。同一框架下导出的 RL loss,和 GRPO, VeriFree 等 baseline 相比,在 AIME24, GPQA 等 benchmark 上取得接近或更高的准确率,同时实现 11% ~ 37% 的长度压缩,训练加速 32%。
03 UserLM-R1: Modeling Human Reasoning in User Language Models with Multi-Reward Reinforcement Learning
可以进化的RL环境:像人一样思考的用户模拟器
论文下载:PDF

论文简介:用户模拟器是智能体后训练的核心交互环境,理想的用户模拟器应具备跨领域泛化能力,并能主动通过质疑或议价等方式参与协商。然而,现有方法存在两个问题:其一,依赖静态且缺乏上下文感知的用户画像,在面对新场景时需要大量人工重新设计,泛化能力有限;其二,忽视人类的策略性思维,导致智能体易于对用户模拟器进行操控。
为此,我们提出UserLM-R1——一种具备推理能力的新型用户语言模型。具体而言,我们首先构建兼顾静态角色与动态场景目标的综合用户画像,以适应多样化场景;进而提出目标驱动的决策策略,在生成回复前先产生高质量的推理链,并通过监督微调与多奖励强化学习进一步提升推理能力与策略水平。大量实验结果表明,UserLM-R1显著优于各竞争基线方法,在更具挑战性的对抗测试集上尤为突出。
04 Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management
自进化的心脏:基于因果反馈对齐的通用Agent记忆管理系统
论文下载:PDF

论文简介:有效的内存管理对于大型语言模型代理执行长期任务至关重要。近期研究探索了使用强化学习来开发专门的内存管理器代理。然而,现有方法主要依赖最终任务性能作为主要奖励,这导致奖励稀疏且信用分配无效,无法为单个内存操作提供足够的指导。
为此,我们提出了Fine-Mem,一个专为细粒度反馈对齐设计的统一框架。首先,我们引入了“块级步骤奖励”,通过辅助的特定块问题回答任务提供即时的步骤级监督。其次,我们设计了“基于证据的奖励归因”,通过将信用锚定到关键记忆操作,基于推理中用作证据的特定记忆项,重新分配全局奖励。这些组件共同实现了稳定的策略优化,并将局部记忆操作与记忆的长期效用相统一。在Memalpha和MemoryAgentBench上的实验表明,Fine-Mem在各种子任务中均优于强大的基线模型,取得了更高的成功率。进一步分析揭示了其在不同模型配置和主干网络中的适应性和强大的泛化能力。
05 DuplexOmni: Real-Time Listening, Seeing, Thinking, and Speaking for Full-Duplex Interaction
不止像人:神奇的看、听、说、想、做并行推理全模态大模型
论文下载:PDF

论文简介:人类交互本质上是连续、多模态和全双工的。尽管近期通用模型在语音、视觉和文本建模方面取得了实质性进展,但在统一系统中将低延迟实时交互与复杂推理和工具使用相结合仍然具有挑战性。
我们提出了DuplexOmni,一种用于实时多模态全双工交互的方法。DuplexOmni将模型能力划分为交互层和思考层,并通过异步并行协作将它们连接起来。交互层由DuplexOmni模型实现,该模型接收流式音频和视频输入,并实时生成文本和语音响应。思考层作为可插拔的外部模块,提供复杂推理和工具使用功能。为了支持这种交互范式,我们进一步研发了一个Writer-Director数据管道,用于构建连续交互训练数据。实验表明,DuplexOmni在多个公开基准测试上表现出色,并展现出自然的双工交互能力。

