美团技术团队
最新文章
文章存档
技术沙龙
关于我们
© 2023 美团技术团队
All rights reserved.
文章列表
Tag: # 过度思考
可验证过程奖励在提升大模型推理效率中的探索与实践
2025年10月10日
搜推平台部
美团业务研发搜推平台部算法团队创新提出可验证过程奖励机制(VSRM),针对大模型推理中的冗余回复与过度思考问题,精准奖励有效推理步骤,显著缩减输出长度并提升推理效率。VSRM 通过步骤级正确率增益评估,有效抑制无效步骤,兼容主流强化学习算法,助力高效、可靠的复杂推理任务。
阅读全文