文章列表

使用TensorFlow训练WDL模型性能问题定位与调优

郑坤
我们在Hadoop集群上使用分布式TensorFlow的实践中,定位发现了一些系统性能瓶颈导致WDL模型训练速度慢。通过分析瓶颈根源和相应的调优手段,WDL模型训练性能提升10倍左右,同时我们对TensorFlow框架和WDL模型也有了更深刻的理解。 阅读全文

美团数据平台融合实践

语宸
本文将介绍数据平台融合项目的实践及相关的思路和经验,深入讨论一下Hadoop多机房架构在我们公司的一种实现方案和大面积SQL任务重构的一种平滑化方法。 阅读全文

HDFS Federation在美团点评的应用与改进

美团点评离线存储团队
HDFS Federation为HDFS系统提供了NameNode横向扩容能力。然而作为一个已实现多年的解决方案,真正应用到已运行多年的大规模集群时依然存在不少的限制和问题。本文以实际应用场景出发,介绍了HDFS Federation在美团点评的实际应用经验。 阅读全文

HDFS NameNode重启优化

小桥
在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,所以对NameNode重启优化非常关键。 阅读全文

HDFS NameNode内存详解

小桥
从HDFS整体架构上看,NameNode内部结构相对复杂,我们通过对其内存核心数据结构定量分析,详细说明NameNode内存使用细节,提供可借鉴的内存使用评估模型,对优化用户使用HDFS的方式和管理HDFS集群具有非常重要的指导意义。 阅读全文

HDFS NameNode内存全景

小桥
NameNode在整个HDFS系统中扮演最核心的角色,同时也是最复杂和容易出现问题的模块,本文从NameNode数据视角对NameNode内存全景及几个关键数据结构进行了简单的解读,并结合实际场景介绍了NameNode内存可能遇到的问题及业界各种可借鉴的解决方案。 阅读全文

美团数据仓库-数据脱敏

song
背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产、名誉、人身安全、以 阅读全文

Hadoop安全实践

code6
前言 在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证。本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及 阅读全文

CentOS6上Hadoop集群中服务器cpu sys态异常的定位与解决

Pivotal, yc
问题现象 在zabbix系统中,对Hadoop集群的历史监控数据分析时,发现在执行大Job任务时,某些服务节点的cpu sys态很高; 具体以ha 阅读全文