猜你喜欢 - 美团技术团队

介绍强化学习在美团推荐排序中的应用，包括三个部分：多模型融合的MDP设计奠定了取得收益的基础；针对强化学习鲁棒性和样本利用效率较低的问题，改进DDPG模型使线上取得稳定收益；基于TensorFlow的轻量级实时DRL框架为快速迭代实验提供了保障。阅读全文

文章列表