文章列表

美团集群调度系统的云原生实践

谭霖
本文介绍了美团在如何解决大规模集群管理的难题、设计优秀且合理的集群调度系统方面的实践,阐述了美团在落地以Kubernetes为代表的云原生技术时,比较关心的问题、挑战以及对应的推进策略。同时本文也介绍了针对美团业务需求场景做的一些特色支持,希望本文能够对云原生领域感兴趣的同学有所帮助或者启发。 阅读全文

TensorFlow在推荐系统中的分布式训练优化实践

逸帆 家恒 峥少 鹏鹏 永宇 正阳 黄军
美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。 阅读全文

Fairplay DRM与混淆实现的研究

吴聊 落落 朱米
研究Fairplay DRM(Digital Rights Management,即数字版权保护)最关键的两点是授权和加密。但长久以来,关于App DRM的研究却很少,而就是在这样的前提下,Fairplay DRM又为iOS App的安全研究叠加了一层“阻碍”。我们通过分析混淆系统的设计和实现过程中的问题,克服调试跟踪的障碍,设计了多种静态和动态的对抗方案;同时通过大量的逆向工程,填补了安全研究人员对macOS系统机制中,关于Fairplay这一部分的认知空白。 阅读全文

如何优雅地记录操作日志?

站通
操作日志广泛存在于各个B端和一些C端系统中,比如:客服可以根据工单的操作日志快速知道哪些人对这个工单做了哪些操作,进而快速地定位问题。操作日志和系统日志不一样,操作日志必须要做到简单易懂。所以如何让操作日志不和业务逻辑耦合,如何让操作日志的内容易于理解,让操作日志的接入更加简单?上面这些都是本文要回答的问题,主要围绕着如何“优雅”地记录操作日志展开描述。 阅读全文

新一代CTR预测服务的GPU优化实践

伟龙 小卓 文魁 駃飞 小新
CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来,随着深度神经网络的引入,CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点,结合GPU硬件架构,我们设计了一系列流程对模型进行定制优化,达到了降低延迟、提高吞吐、节省成本的目标。 阅读全文

美团终端消息投递服务Pike的演进之路

健午 佳猛 陆凯 冯江
Pike 2.0致力于为美团提供一套易接入、高可靠、高性能的双向消息投递服务。本文首先从系统架构升级、工作模式升级、长稳保活机制升级等方面介绍了Pike2.0的技术演进,然后介绍了Pike 2.0在直播、游戏等新业务场景下的特性支持。希望本文能给对消息投递服务感兴趣或者从事相关工作的读者一些帮助和启发。 阅读全文

百亿规模API网关服务Shepherd的设计与实现

充泽 志洋 李敏
在微服务架构下,服务拆分会让API的规模成倍增长,使用API网关来管理API逐渐成为一种趋势。美团统一API网关服务Shepherd就是在这种背景下应运而生,适用于美团业务且完全自研,用于替换传统的Web层网关应用,业务研发人员通过配置的方式即可对外开放功能和数据。本文将介绍美团统一API网关诞生的背景、关键的技术设计和实现,以及API网关未来的规划,希望能给大家带来一些帮助或者启发。 阅读全文

美团Serverless平台Nest的探索与实践

殷琦 华珅 飞飞 志洋 奕锟 佳文 凯鑫 亚辉
Serverless是目前比较热门的技术话题,各个大云厂商以及互联网大厂内部都在积极建设Serverless产品。本文将介绍美团Serverless产品在落地过程中的一些实践经验,其中包括技术选型的考量、系统的详细设计、系统稳定性优化、产品的周边生态建设以及在美团的落地情况。虽然各个公司的背景不尽相同,但总有一些可以相互借鉴的思路或方法,希望能给大家带来一些启发或者帮助。 阅读全文

美团酒旅数据治理实践

建舒 王磊 罗茜
数据开发过程中会不断引入一些问题,而数据治理就是要不断消除引入的问题,保障数据准确、全面和完整,为业务带来价值,同时合理管理数据权限,避免数据泄露带来的业务风险。数据治理是数据化公司的一项重要能力。 阅读全文

实践之后,我们来谈谈如何做好威胁建模

李瑞
对美团安全团队来说,引入领先的安全技术设计能力,构建全方位、多维度智能防御体系,是我们不懈追求的目标。美团有众多基础设施,核心业务系统也需要以成熟的方法论进行威胁评审。本文将着重分享威胁建模是如何帮助美团安全团队评估、发现大量安全设计的风险,以及互联网企业应该如何大范围地实施威胁建模并完整地进行落地。 阅读全文

美团弹性伸缩系统的技术演进与落地实践

tuyang
弹性伸缩具有应突发、省成本、自动化的业务价值。平台侧将各业务零散、闲置资源进行整合,形成一个大规模资源池,通过弹性调度、库存管控技术在公司运营成本和业务体感中寻求较好的平衡。本文将介绍弹性伸缩系统落地过程中面临的技术挑战、推广以及运营层面的一些思考。 阅读全文

OCTO 2.0:美团基于Service Mesh的服务治理系统详解

舒超、世朋、来俊
OCTO 2.0是美团下一代分布式服务治理系统,它基于美团现有服务治理系统OCTO 1.0与Service Mesh通信基础设施层的结合,是命名服务、配置管理、性能监控、限流鉴权等服务治理功能的全新演进版本。本文主要讲述OCTO 2.0的重要功能及实现思路,希望能对从事相关开发的同学有所帮助或者启发。 阅读全文

基于SSD的Kafka应用层缓存架构设计与实现

世吉 仕禄
Kafka在美团数据平台承担着统一的数据缓存和分发的角色,针对因PageCache互相污染,进而引发PageCache竞争导致实时作业被延迟作业影响的痛点,美团基于SSD自研了Kafka的应用层缓存架构。本文主要介绍了该架构的设计与实现,主要包括方案选型,与其他备选方案的比较以及方案的核心思考点等,最后介绍该方案与其他备选方案的性能对比。 阅读全文

速度与压缩比如何兼得?压缩算法在构建部署中的优化

宏达
压缩在数据传输和存储过程中经常扮演着十分重要的角色,因此提高压缩的效率可以帮助我们节省时间和降低存储成本。本文介绍了压缩算法的优化在构建部署平台的应用,能够帮助研发团队提高研发和交付效率。 阅读全文

隐藏在浏览器背后的“黑手”

陶琦
本文从黑产攻击方式、木马恶意行为、监控及防御方案等角度对Lnkr木马进行分析,此类木马影响范围较广,攻击手法多样,但目前国内相关的资料却非常稀少,希望本文的实践经验和总结能对从事相关安全检测的同学有所帮助。 阅读全文

复杂环境下落地Service Mesh的挑战与实践

继东 薛晨 业祥 张昀
在私有云集群环境下建设 Service Mesh ,往往需要对现有技术架构做较大范围的改造,同时会面临诸如兼容困难、规模化支撑技术挑战大、推广困境多等一系列复杂性问题。本文会系统性地讲解在美团在落地 Service Mesh 过程中,我们面临的一些挑战及实践经验,希望能对大家有所启发或者帮助。 阅读全文

AIOps在美团的探索与实践——故障发现篇

胡原 锦冬 俊峰 长伟 永强
美团技术团队在行业、业务领域知识和运维领域的知识等方面有着长期的积累,已经沉淀出不少工具和产品,实现了自动化运维,同时在AIOps方面也有一些初步的成果。我们希望通过在AIOps上持续投入、迭代和钻研,将之前积累的行业、业务和运维领域的知识应用到AIOps中,从而能让AIOps为业务研发、产品和运营团队赋能,提高整个公司的生产效率。 阅读全文

Kubernetes如何改变美团的云基础设施?

王国梁
Kubernetes是让容器应用进入大规模工业生产环境的开源系统,也是集群调度领域的事实标准,目前已被业界广泛接受并得到了大规模的应用。Kubernetes在美团也进行了大规模的部署,已经成为美团云基础设施的管理引擎。 阅读全文

新一代垃圾回收器ZGC的探索与实践

王东 王伟
ZGC(The Z Garbage Collector)是JDK11中推出的一款低延迟垃圾回收器。ZGC适用于大内存低延迟服务的内存管理和回收,本文主要介绍ZGC在低延时场景中的应用和卓越表现。 阅读全文

美团万亿级 KV 存储架构与实践

泽斌
KV 存储作为美团一项重要的在线存储服务,承载了在线服务每天万亿级的请求量,本文系演讲内容的整理。 阅读全文