大数据工程师

跟随着职业路径图,你可以在由易到难的课程中学到成为大数据工程师所需的核心知识,如果掌握了“职业路径图”中的所有技术需求,你将成为一名合格的大数据工程师,可以从事大数据的相关工作。

  • 大数据工程师
  • 63课程

    210个视频课时

  • 48小时

    合计课程时长

  • 493426

    共计663247次学习

  • 小白

  • 走进大数据Hadoop框架的世界
  • 用户行为分析项目
  • 调优
  • 初级

  • Hive
  • Zookeeper
  • HBase
  • 中级

  • Kafka
  • Spark
  • Storm
  • 其他
  • 高级

  • 学习中
  • 已学完
  • 未学习
  • 即将上线

初级大数据研发工程师

走进大数据Hadoop框架的世界
Hadoop是整个大数据生态系统的基石,掌握好Hadoop的架构和环境搭建是后续学习的基础;
1.Hadoop 概述 2.Hadoop 架构介绍 3.Yarn 的发展背景及基本原理
4.安装 Hadoop YARN
用户行为分析项目
通过电商网站的用户行为分析项目使大家明白如何使用Hadoop对大数据进行分析;
1.Hadoop 用户行为分析项目之应用概述 2.Hadoop 用户行为分析项目之分析与设计 3.Hadoop 用户行为分析项目之编码实践
调优
Hadoop 的调优和运维对于 Hadoop 来说是很重要的一个环节,对于大规模数据集来说更是如此。
1.Hadoop 性能调优与运维

中级大数据研发工程师

Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,Hive将SQL语句转换为 MapReduce作业进行运行。其优点是学习成本低,可以通过类SQL语句快速实现统计查询,也支持实现自己的UDF函数来完成比较复杂的业务逻辑,非常适合数据仓库的统计分析。
1.初识Hive 2.Hive 环境搭建 3.Hive 基本原理
Zookeeper
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,常用于节点HA的配置。
1.认识 ZooKeeper 2.ZooKeeper 客户端的使用(一) 3.ZooKeeper 客户端的使用(二)
4.ZooKeeper 实战(一) 5.ZooKeeper 实战(二) 6.ZooKeeper 运维
HBase
HBase是一个分布式的、面向列的开源数据库,适用于海量数据的存储和实时查询。
1.HBase 入门 2.HBase Java 编程 3.HBase 架构详解
4.MapReduce on HBase 5.Hive On HBase 6.HBase集群管理
7.HBase Rest/Thrift 8.安装 HBase 的集群 9.HBase 数据的导入
10.HBase 管理工具的使用 11.HBase 的备份与恢复 12.HBase 高级特性之快照
13.HBase 高级特性之集群复制 14.HBase 与 Phoenix

高级大数据研发工程师

Kafka
kafka目前是国内外用的比较多的分布式消息队列,通常与流处理集成使用。
1.kafka的初认识 2.Kafka 基础实战 :消费者和生产者实例 3.kafka 消息处理过程与集群维护
4.Kafka 核心源码剖析 5.Kafka 用户日志上报实时统计之应用概述 6.Kafka 用户日志上报实时统计之分析与设计
7.Kafka 用户日志上报实时统计之编码实践
Spark
Spark是基于内存的分布式计算框架,执行效率比MapReduce更高,而且能处理多种不同场景(批处理、流处理、SQL、Graphx、MLlib等)的计算引擎;
1.Spark简介与计算模型 2.Spark架构与工作机制 3.Spark 概述& Spark DataFrame 大数据处理框架介绍
4.Spark SQL 交互式查询 5.Spark Streaming 流数据 6.集成 Kafka 与 Spark Streaming 构建企业级流数据处理平台
7.大数据存储系统 Tachyon 的最新进展与用例分析
Storm
Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流;
1.Storm 体系概要 2.Storm 集群安装部署 3.Storm 实战基础 :WordCount 实例
4.Storm 实战进阶: DataOptTopology实例 5.Storm 架构基础:实时基础平台架构 6.初识 Apache Storm
7.Apache Storm 计算模型详解与实战 8.Storm 实战:频繁组合查找 9.Storm 实战:统计日志和处理
10.Storm 实战:完善统计日志和处理 11.高级抽象元语 Trident 12.分布式远程过程调用 DRPC
13.Lambda 架构详解(上) 14.Lambda 架构详解(中)
其他
大数据生态系统周边框架介绍。
1.大数据平台基础架构和常用处理工具 2.Apache Kylin 产品及架构介绍 3.基于 Apache Usergrid 打造移动互联网时代的 Baas 平台
4.我和 Apache Camel 这些年