介绍强化学习在美团推荐排序中的应用,包括三个部分:多模型融合的MDP设计奠定了取得收益的基础;针对强化学习鲁棒性和样本利用效率较低的问题,改进DDPG模型使线上取得稳定收益;基于TensorFlow的轻量级实时DRL框架为快速迭代实验提供了保障。 阅读全文