一、课程简介
本课程内容主要是以企业实际项目进行讲解和操作;
二、讲师介绍
若泽讲师
大数据资深研究员、培训讲师、架构师;
hadoop/spark架构师,前亚信大数据团队架构师,现任某某云高级架构师,负责海量日志处理、个性化推荐、算法、模型等方面的技术研究与管理工作;
参与过上海移动、山东移动大数据平台开发建设,主要负责Hive、Spark、Storm、HBase、ES等的研发及落地;
曾为多家上市公司做大数据内训工作,此前被多家在线教育机构聘请为特聘讲师,有4年多的大数据实际教学经验,执教过大数据课程:如《企业级hive零基础到项目实战》、《企业级零基础spark高手项目课程》、实体《大数据实战就业班》等等,累计培养超过数千名大数据开发人才,就业率超过95%,深受学员好评与喜爱。
三、课程详情
课程类别
课程内容
备注
课程介绍
大纲解读
Linux
Win7下载安装VM10
Centos6.5下载安装、配置网卡、克隆机器、SecureCRT8.0工具使用等
Linux常用命令1(目录文件、用户和组、进程端口等)
Linux常用命令2(vi、包管理、压缩解压、软件安装等)
Shell常用操作
MySQL
关系型数据库与非关系型数据库简单介绍
MySQL 5.6.23 rpm安装和配置文件解读
MySQL常用命令、数据类型、表设计
dbeaver工具下载和配置MySQL连接
SQL语法(增删改查、聚合、排序、关联等)
Java基础
eclipse/IDEA工具下载安装及使用
Java编程思想(带你真正了解万物皆对象)
Java编程规范和第一个Java程序示例
Java类和对象、访问修饰符
Java数据类型以及变量定义
Java异常模块处理
Java方法定义、传参、返回值、调用等
Java与MySQL使用Jdbc的增删改查案例
Hadoop初级
大数据生态圈和Hadoop2.x三大组件介绍
Hadoop伪分布式安装
HDFS架构设计、常用命令和进程
HDFS副本放置策略、HDFS读写流程
Java API操作HDFS
MapReduce2架构设计(与MapReduce1对比)
WordCount原理和案例编程详解
MapReduce Join原理和案例编程详解(多表)
Yarn架构设计、常用命令和进程
Yarn工作流程(mr提交应用程序)
Yarn资源管理与调度、常见参数配置
Yarn 三种调度器详解
Hadoop案例实战
分布式协调框架ZooKeeper
ZooKeeper介绍
ZooKeeper集群安装及cli使用
ZooKeeper在大数据中的使用场景
Hadoop高级
NameNode HA原理及部署
NameNode Federation原理及部署
ResourceManager Restart原理及部署
ResourceManager HA原理及部署
大数据数据仓库Hive
Hive产生背景、体系架构、使用场景、与Hadoop的关系
Hive部署及简单使用
Hive DDL和DML操作
Hive内部表、外部表、分区表的使用
Hive复杂数据类型的使用
Hive中函数的使用
Hive中压缩和存储格式的使用
使用JDBC操作Hive
Hive常用调优
数据转换工具Sqoop
产生背景及部署
Sqoop的导入导出操作
Sqoop job的使用
Hadoop处理展示框架HUE
HUE概述及部署
HUE整合HDFS、MapReduce、Hive、MySQL的使用
离线批处理项目实战
分布式数据库HBase
HBase概述及与RDBMS对比
伪分布式环境安装部署、启动、监控详解
HBase核心概念
HBase Shell&Java API操作HBase
HBase与MapReduce集成使用
HBase与Hive整合使用
HBase Rowkey设计原则
分布式日志收集框架Flume
概述及部署
架构组件详解
Flume常用Source的使用
Flume常用Channel的使用
Flume常用Sink的使用
案例:Flume Agent串联、并联的综合使用
分布式消息队列Kafka
概述及配置部署
体系架构及核心组件详解
容错性测试
使用Java/Scala API操作Kafka
案例:Kafka整合Flume综合使用
Scala
概述、部署及入门
函数
面向对象操作
集合、高阶函数
模式匹配、隐式转换
文件操作等
Spark入门
MapReduce等并行计算框架的弊端
Spark是什么、有哪些特点
Spark发展史、各版本总体了解
Spark对比Hadoop&MapReduce
源码编译及单机环境部署
交互式命令行spark-shell的使用
使用Spark 完成词频统计
Standalone模式环境部署
Spark Core
RDD是什么及五大特性
初识SparkContext/SparkConf
RDD的创建、转换、动作、缓存
RDD的Lineage、Dependency
RDD共享变量的使用
Spark编程模型
使用IDEA开发Spark应用程序
提交Spark应用程序运行
通过案例对比Spark与Hive的执行性能
Spark编程模型
Spark Core源码分析
案例:互联网用户访问日志分析
Spark SQL
Spark SQL前世今生
如何从Hive平滑过渡到Spark SQL
DataFrame
Spark SQL的愿景
Hive on Spark
通过案例对比Spark与Hive的执行性能
案例:使用Spark SQL完成Hive实战项目改造
案例:使用Spark SQL完成对股票数据的分析
Spark Streaming
Spark Streaming概述及WordCount实时统计入门
Spark Streaming编程模型
Spark Streaming核心概念
Spark Streaming有状态的以及窗口统计
使用Spark Streaming处理多种不同数据源的操作
使用Spark Streaming整合Spark SQL的使用
Spark Streaming整合Flume、Kafka使用
案例:使用Spark Streaming整合Kafka、Flume打造通用的流处理平台
Spark综合项目实战
Spark 2.x新特性
更容易的SQL和Streamlined APIS
速度更快 Spark作为编辑器
Structured Streaming
Spark2.x案例使用
企业大数据平台
CDH5.7.0离线安装和暴力卸载(踩坑心得)
CDH体系架构解读、常规命令、正确启动与关闭
CDH常规管理(监控/预警/配置/资源/日志/安全)
CDH配置HDFS HA及Failover实验演练
CDH添加删除机器及DataNode进程等
CDH升级实验(5.7.0-->5.9.1)
ELK+Redis
ELK5.0简介(核心组成、三大组件、工作流程等)
Redis介绍、部署及使用
Logstash介绍、部署及使用
Elasticsearch介绍、部署及使用
Kibana介绍、部署及使用
ELK日志收集分析项目实战
就业指导
课程总结
常见面试题讲解
简历编写指导
注:课程软件使用版本
1、本课程使用的软件版本:操作系统:CentOS6.4+
2、Hadoop生态版本:cdh5.7.0系列
3、Spark版本:1.6.1
4、Spark2.x新特性以发布的最新Spark版本为准
5、考虑到源码编译过程中网络问题,为参加课程的学员提供半年VPN。