零基础学习大数据开发

零基础学习大数据开发

0 (1人评价)

课程简介

 

一、课程简介

本课程内容主要是以企业实际项目进行讲解和操作;

二、讲师介绍

若泽讲师

 大数据资深研究员、培训讲师、架构师;

 hadoop/spark架构师,前亚信大数据团队架构师,现任某某云高级架构师,负责海量日志处理、个性化推荐、算法、模型等方面的技术研究与管理工作;

 参与过上海移动、山东移动大数据平台开发建设,主要负责Hive、Spark、Storm、HBase、ES等的研发及落地;

 曾为多家上市公司做大数据内训工作,此前被多家在线教育机构聘请为特聘讲师,有4年多的大数据实际教学经验,执教过大数据课程:如《企业级hive零基础到项目实战》、《企业级零基础spark高手项目课程》、实体《大数据实战就业班》等等,累计培养超过数千名大数据开发人才,就业率超过95%,深受学员好评与喜爱。

三、课程详情

 

课程类别

课程内容

备注

课程介绍

大纲解读

Linux

Win7下载安装VM10

Centos6.5下载安装、配置网卡、克隆机器、SecureCRT8.0工具使用等

Linux常用命令1(目录文件、用户和组、进程端口等)

Linux常用命令2(vi、包管理、压缩解压软件安装等)

Shell常用操作

 

MySQL

关系型数据库与非关系型数据库简单介绍

MySQL 5.6.23 rpm安装和配置文件解读

MySQL常用命令、数据类型、表设计

dbeaver工具下载和配置MySQL连接

SQL语法(增删改查、聚合、排序、关联等)

 

Java基础

eclipse/IDEA工具下载安装及使用

Java编程思想(带你真正了解万物皆对象)

Java编程规范和第一个Java程序示例

Java类和对象、访问修饰符

Java数据类型以及变量定义

Java异常模块处理

Java方法定义、传参、返回值、调用等

Java与MySQL使用Jdbc的增删改查案例
 

Hadoop初级

大数据生态圈和Hadoop2.x三大组件介绍

Hadoop伪分布式安装

HDFS架构设计、常用命令和进程

HDFS副本放置策略HDFS读写流程

Java API操作HDFS

MapReduce2架构设计(与MapReduce1对比)

WordCount原理和案例编程详解

MapReduce Join原理和案例编程详解(多表)

Yarn架构设计、常用命令和进程

Yarn工作流程(mr提交应用程序)

Yarn资源管理与调度、常见参数配置

Yarn 三种调度器详解

Hadoop案例实战

分布式协调框架ZooKeeper

ZooKeeper介绍

ZooKeeper集群安装及cli使用

ZooKeeper在大数据中的使用场景

Hadoop高级

NameNode HA原理及部署

NameNode Federation原理及部署

ResourceManager Restart原理及部署

ResourceManager HA原理及部署
 

大数据数据仓库Hive

Hive产生背景、体系架构使用场景Hadoop的关系

Hive部署及简单使用

Hive DDLDML操作

Hive内部表外部表分区表的使用

Hive复杂数据类型的使用

Hive中函数的使用

Hive中压缩和存储格式的使用

使用JDBC操作Hive

Hive常用调优

 

数据转换工具Sqoop

产生背景及部署

Sqoop的导入导出操作

Sqoop job的使用
 

Hadoop处理展示框架HUE

HUE概述及部署

HUE整合HDFS、MapReduce、Hive、MySQL的使用

离线批处理项目实战
 

分布式数据库HBase

HBase概述及与RDBMS对比

伪分布式环境安装部署、启动、监控详解

HBase核心概念

HBase Shell&Java API操作HBase

HBase与MapReduce集成使用

HBase与Hive整合使用

HBase Rowkey设计原则

分布式日志收集框架Flume

概述部署

架构组件详解

Flume常用Source的使用

Flume常用Channel的使用

Flume常用Sink的使用

案例:Flume Agent串联、并联综合使用

分布式消息队列Kafka

概述配置部署

体系架构及核心组件详解

容错性测试

使用Java/Scala API操作Kafka

案例:Kafka整合Flume综合使用

Scala

概述、部署及入门

函数

面向对象操作

集合高阶函数

模式匹配、隐式转换

文件操作等

Spark入门

MapReduce等并行计算框架的弊端

Spark是什么、有哪些特点

Spark发展史、各版本总体了解

Spark对比Hadoop&MapReduce

源码编译及单机环境部署

交互式命令行spark-shell的使用

使用Spark 完成词频统计

Standalone模式环境部署

Spark Core

RDD什么五大特性

初识SparkContext/SparkConf

RDD创建、转换动作缓存

RDDLineage、Dependency

RDD共享变量的使用

Spark编程模型

使用IDEA开发Spark应用程序

提交Spark应用程序运行

通过案例对比Spark与Hive的执行性能

Spark编程模型

Spark Core源码分析

案例:互联网用户访问日志分析
 

Spark SQL

Spark SQL前世今生

如何从Hive平滑过渡到Spark SQL

DataFrame

Spark SQL的愿景

Hive on Spark

通过案例对比Spark与Hive的执行性能

案例:使用Spark SQL完成Hive实战项目改造

案例:使用Spark SQL完成对股票数据的分析
 

Spark Streaming

Spark Streaming概述及WordCount实时统计入门

Spark Streaming编程模型

Spark Streaming核心概念

Spark Streaming有状态的以及窗口统计

使用Spark Streaming处理多种不同数据源的操作

使用Spark Streaming整合Spark SQL使用

Spark Streaming整合Flume、Kafka使用

案例:使用Spark Streaming整合Kafka、Flume打造通用的流处理平台

 

Spark综合项目实战

Spark 2.x新特性

更容易的SQL和Streamlined APIS

速度更快 Spark作为编辑器

Structured Streaming

Spark2.x案例使用

企业大数据平台

CDH5.7.0离线安装和暴力卸载(踩坑心得)

CDH体系架构解读、常规命令、正确启动与关闭

CDH常规管理(监控/预警/配置/资源/日志/安全)

CDH配置HDFS HA及Failover实验演练

CDH添加删除机器及DataNode进程等

CDH升级实验(5.7.0-->5.9.1)
 

ELK+Redis

ELK5.0简介(核心组成、三大组件、工作流程等)

Redis介绍部署及使用

Logstash介绍部署及使用

Elasticsearch介绍部署及使用

Kibana介绍部署及使用

ELK日志收集分析项目实战

就业指导

课程总结

常见面试题讲解

简历编写指导

注:课程软件使用版本

1、本课程使用的软件版本:操作系统:CentOS6.4+

2、Hadoop生态版本:cdh5.7.0系列

3、Spark版本:1.6.1

4、Spark2.x新特性以发布的最新Spark版本为准

5、考虑源码编译过程中网络问题,为参加课程的学员提供半年VPN。

 

课程标签

课程列表