课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段一:Java SE+MySQL

此阶段为我们整个课程的第一阶段,开发基础阶段。将主要侧重Java语言及结构化查询语言SQL语言的学习。通过对Java语言基础语法、OOP编程、多线程及网络编程、MySQL数据库、Maven项目管理等开发入门工具的学习,训练学员掌握大数据必备的基本编码能力,为后续进一步学习大数据分析/推荐系统等更高级的内容打下坚实且必要基础。

  • 重要程度:
    难度级别:
  • 就业岗位: Java Web开发工程师(中级) Java 大数据开发工程师(初级)
序号 课程名称 课程介绍 学习内容
01 Java负基础扫盲 本课程介绍大数据入门开发语言Java的环境安装及发展应用,主要讲解了Java语言的开发环境的搭建、Java程序开发的思想、Java中变量与运算符的使用,数据类型的的介绍。Java中选择分支与循环分支的应用、数组的定义、引用等。重点学习程序开发语言的设计思想,Java开发的过程及基本语法。 1、Java基本功能及应用介绍
2、Java开发环境的安装部署
3、Java变量及数据类型
4、Java常用运算符的使用
5、Java中选择结构的应用
6、Java中循环结构的应用
7、Java中数组的应用
02 Java OOP 本课程介绍大数据入门开发语言Java的主要编程思想——面向对象。主要讲解了Java语言中的类(Class)、对象(Object)和方法(Method)的定义与使用。另外包含了Java语言区别于其他语言的三大特性:封装、继承、多态。最后通过实际的开发案例带大家体验Java面向对象编程的特点。 1、类class
2、对象object
3、方法method
4、Java高级特点:封装
5、Java高级特点:继承
6、Java高级特点:多态
7、OOP实战演练开发案例
03 Java 核心编程 本课程介绍大数据入门开发语言Java的常用编程语法,主要讲解了Java的IO数据流操作及XML技术、开发中的常用类库、程序异常捕获及处理、Java中的集合类型及泛型、Java的多线程开发、Java网络编程等。通过开发中常用类库的应用,快速熟悉Java应用开发的过程。 1、Java IO流技术 & XML操作
2、常用类库和异常处理
3、Java 集合及泛型
4、Java 多线程
5、Java 网络编程
04 MySQL 数据库 MySQL是互联网应用方面最流行的关系型数据库管理系统,本课程不仅会深入讲解MySQL原理,同时还有项目实战演练:MYSQL环境部署、常用DDL、DML开发、 数据库导入及备份、数据建模等数据库管理技术。为后期大数据处理分析,打下重要基础。 1、Mysql安装部署
2、结构化查询语言SQL语法入门
3、MySQL数据库数据导入及备份
4、数据建模
5、SQL高级查询
6、JDBC入门、SQL注入
7、事务管理、批处理
8、连接池(Druid)、DBUtils框架
05 JDBC编程 Java Database Connectivity:Java访问数据库的解决方案。 JDBC是Java应用程序访问数据库的里程碑式解决方案。Java研发者希望用相同的方式访问不同的数据库,以实现与具体数据库无关的Java操作界面。 JDBC定义了一套标准接口,即访问数据库的通用API,不同的数据库厂商根据各自数据库的特点去实现这些接口。 1、JDBC的介绍
2、JDBC开发环境搭建
3、JDBC连接MySQL数据库
4、JDBC实现数据库增删改查
06 Java 编程实战 本课程主要学习Java开发中的两大高级特性及项目开发管理工具,用于辅助项目开发。并且结合之前四门课程的学习,动手实战开发商品进销存管理项目案例。 1、Java高级特性:反射
2、Java高级特性:序列化
3、Git版本控制系统
4、Maven项目管理构建工具
5、项目实战:商品进销存管理系统
07 Java 高级特性 NIO是一个基于事件的IO架构,最基本的思想就是:有事件我通知你,你再去做你的事情,没事件时你大可以节约大把时间去做其它任何事情。而且NIO的主线程only one,不像传统的模型,需要N个线程去,也减轻了JVM的工作量,使得JVM处理任务时显得更加高效。本课程将结合大量图示及代码演示,让你更容易, 更系统的掌握多线程并发编程(线程安全,线程调度,线程封闭,同步容器等)与高并发处理思路与手段(扩容,缓存,队列,拆分等)相关知识和经验。 1、nio和io的区别
2、Buffer的数据存取
3、直接缓冲区和非直接缓冲区
4、非阻塞式网络编程
5、创建线程的两种方法
6、ThreadLocal类及其使用
7、Java5提供的线程锁技术、条件阻塞Condition
8、Java5读写锁技术的妙用和信号灯的使用
9、Java5中CyclicBarrier同步工具
10、Java5中CountDownLatch同步工具
11、Java5中Exchanger同步工具
08 Java8新特性 Java 8是Java自Java 5(发布于2004年)之后的最重要的版本。这个版本包含语言、编译器、库、工具和JVM等方面的十多个新特性。在本课程中我们将学习这些新特性,并用实际的例子说明在什么场景下适合使用。 1、Lambda表达式和函数式接口
2、接口的默认方法和静态方法及方法引用
3、重复注解
4、Java编译器的新特性
5、Java官方库的新特性
6、新的Java工具

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段二:Java Web+SSM

此阶段为我们整个课程的第二阶段,属于Java EE应用开发级。侧重于Java Web主要技术和SSM 三大框架的学习与开发类实际电商项目演练。通过对基本的Java Web技术(HTML、CSS及JS)的学习,了解如何制作网页和实现简单的网页特效;通过JSP和Servlet学习实现动态页面的开发和MVC架构开发模式,完成实现简易的留言管理系统;通过对JAVA EE三大主流框架SSM的学习和结合电商系统项目,既了解具体业务,有熟练技术的使用,为后期大数据分析和前端展示打下扎实的基础。

  • 重要程度:
    难度级别:
  • 就业岗位: Java EE开发工程师(初级)
序号 课程名称 课程介绍 学习内容
01 Web前端开发之HTML和CSS 本课程介绍静态网站开发的三大基本要素:HTML、CSS和JavaScript,通过学习了解网站页面的构成及网站开发的基础,为后续进行动态页面开发和报表框架Echarts等打下扎实基础。 1、HTML简介、HTML标签详解、前端开发工具概述、标签语义化
2、CSS概述、属性、样式的类型、选择器、背景、元素的显示模式、CSS伪类、字体相关属性等
3、JavaScript概述、Javascript注意点、直接量、数据类型、流程控制
02 Web前端开发之JS和Jquery 本课程以jquery为核心,系统全面的掌握,jquery是一套跨浏览器的JavaScript库,简化HTML与JavaScript之间的操作。 使用户能更方便地处理HTML documents、events、实现动画效果,并且方便地为网站提供AJAX交互。 1、jquery介绍
2、jQuery对象和dom对象相互转化
3、常用基本选择器、多种选择器叠加
4、层级选择器、过滤选择器、属性选择器
5、子元素选择器课时预览
6、append应用、外部节点插入
7、节点删除、克隆节点、属性管理
8、节点的html和值的管理
03 大数据可视化技术-编程篇:Echarts/PyCharts从入门到上手实战 "ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9 /10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。 支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达 图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题,详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交 互组件,支持多图表、组件的联动和混搭展现。大数据结合Echarts进行数据展示分析,现在已成为越来越多大数据企业的第一选择"。备注:PyCharts是基本Python接口调用的Echarts版本 1、数据前端展示及后台服务器技术
2、Echarts技术初探
3、Echars图表展示工具详解
4、Echarts十大经典图表详解
5、Echarts高级技巧
6、豆瓣网数据分析可视化展示案例
04 Java Web开发 本课程着重针对Java Web中的主要技术JSP、Servlet、Request、Response的学习,了解动态网站的开发,使用Tomcat进行服务部署,为后续SSM框架打下基础;通过简易的留言系统充分掌握Java Web知识运用。 1、Servlet 技术、JSP 技术
2、 Tomcat服务器使用、config配置详解; 高并发访问下的tomcat优化
3、AJAX的原理,AJAX的开发步骤,AJAX的优化与兼容性问题
4、jQuery的优势、选择器、jQueryUI、jQuery编程思想
5、基于MVC模式开发实现留言管理系统Msg的用户管理、留言管理和评论管理
05 基于Maven构建SSM框架大型电商项目 本课程以贯穿案例“超市订单管理系统”,其几乎贯穿所有章节,利用各章学习的技能对案例功能进行实现和优化,课程学习结束后,将完成一个基于SSM的大型电商项目。在学习的同时获取项目的开发经验。将掌握如何使用SSM框架技术来开发结构合理,性能优异,代码健壮的应用程序,同时通过对相关知识的学习和运用,理解框架原理,熟练掌握应用技巧打下扎实的技术基础。 1、大型Java项目架构演进解析
2、开发环境安装与配置
3、数据库表设计
4、项目初始化
5、用户模块开发
6、分类管理模块开发
7、商品管理模块开发
8、购物车模块开发
9、收获地址管理模块开发
10、支付模块开发
11、订单管理模块开发
06 分布式NoSQL文档数据库MongoDB 最近几年,由于各种各样NoSQL数据库的涌现,就传统RDBMS而言的“一刀切”的想法受到了挑战。如今市场上有超过120种NoSQL数据库可用,并且目前处于领先地位的就是MongoDB。随着如此众多的公司选择MongoDB作为其NoSQL数据库选项,如何结合专业建议以便最大化利用该软件的实践需求也就越来越大了。本课程介绍了mongoDB简单数据库的搭建,从使用方面了解mongoDB的特性与基本的操作,让小伙伴们对mongoDB在业务层的使用有较为详细的了解,可以使用mongoDB完成基本的业务开发。 1、传统数据与大数据、NoSQL概述
2、MongoDB概述、安装配置及初步使用
3、MongoDB基本用法(文档Document的增删改查)
4、MongoDB高级用法(数据高级查询)
5、MongoDB数据可视化管理
07 NoSQL数据库之Redis 入门使用 一门内容丰富Redis课程,每个技术点都介绍使用经验、Java客户端示范、从原理到经验,由浅入深讲解并伴有企业中Redis开发的相关项目以及大规模Redis的实战经验。 1、NoSQL数据库介绍
2、Redis 环境搭建及基本使用
3、Redis数据结构(String、List、Hash、Set和Sorted Set)
4、Java客户端Jedis及连接池
5、Redis事务

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段三:大数据离线分析

此阶段为我们整个课程的第三阶段,正式进入大数据课程。本阶段侧重于对分布式存储/分布式计算/数据仓库工作流程中最重要的几个环节,通过对数据采集、ETL、数据分析、数据展示的深入介绍及性能优化,结合数据仓库和具体的经典案例,让学员对大数据上升到开发应用的级别,能够进行基本的数据分析开发与优化。

  • 重要程度:
    难度级别:
  • 就业岗位: Hadoop工程师(中级) 大数据开发工程师(初级) 数据仓库工程师(初级) ETL工程师(初级)
序号 课程名称 课程介绍 学习内容
01 Linux 系统运维管理 随着人工智能、大数据时代的到来,Linux的地位与日俱增!本门课程的讲师用通俗易懂的语言,以主流CentOS操作系统为例,系统讲解Linux知识点:多语言运行环境配置、常用软件及应用部署、运维必备服务等实用技能,助你快速上手独立配置Linux操作系统,为部署大数据应用环境打下扎实的基础。 1、Linux发展及介绍
2、Vmvare与Centos6.x的安装部署
3、Linux文件管理及用户管理
4、Linux权限管理与常用工具命令
5、Linux网络管理与系统管理
6、Linux软件管理与正则表达式
7、Shell编程应用
8、Linux定时任务Crontab
02 大数据存储分析HADOOP框架 大数据时代已经到来,越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop,作为一个开源的分布式并行处理平台,以其高扩展、高效率、高可靠等优点,得到越来越广泛的应用。本课旨在培养学员理解Hadoop的架构设计以及掌握Hadoop的运用能力。 1、大数据概论
2、HADOOP 框架及伪分布式环境
3、HDFS分布式文件系统
4、MapReduce并行计算框架
5、YARN分布式资源管理
6、MapReduce企业开发案例
7、Hadoop分布式集群部署
8、Hadoop容灾方案:高可用
03 大数据仓库工具HIVE Hive是基于Hadoop的一个数据仓库工具,提供了强大的数据操作能力,包括数据的导入,查询和丰富的内置函数。同时,Hive也提供了对应的客户端可以操作数据,通过Java编程可以创建自定义函数来实现具体的业务逻辑。本课程将带你进入大数据开发分析的新世界,使用SQL语言对大数据进行分析处理。 1、Hive引入、介绍及安装
2、Hive 的DDL(数据库创建及表的三种创建方式)
3、Hive 外部表、分区表及加载数据和基本SQL使用
4、Hive高级电商案例分析
5、Hive Server2及beeline与JDBC使用
04 项目案例:基于HADOOP+HIVE+SQOOP的某东数据仓库订单客户分析 本课程基于Hadoop数据存储分析平台,结合结构化分析SQL中间件Hive搭建数据仓库,针对京东业务日志对订单等数据进行分析,从业务流程到技术实践,由浅入深的讲解这个订单分析需求的实现,学完本课程,将实际的感受到企业大数据分析的工作业务及流程。 1、企业数据仓库四层架构及功能
2、以驴妈妈、一号店及京东订单分析技术架构设计
3、分析订单表、订单商品表及用户表的结构
4、ODS层创建订单相关表及加载数据
5、DIM层维度信息表创建及加载数据
6、PDW层订单表、订单商品表及用户表创建及从ODS层导入数据
7、【订单基本统计分析】全流程深入详解
8、【各渠道Top订单用户统计及僵尸用户统计】分析
9、互联网公司User相关常见指标分析

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段四:大数据之企业开发实战课程

本阶段为进入大数据课程内容的第二阶段,开始真正接触企业如何使用大数据技术框架对海量数据(日志数据和业务数据)进行存储、分析、调度和结果展示。此阶段包含对海量数据存储和实时查询的大数据NoSQL数据库Hbase、两个电商网站用户流量统计分析(采用不同的数据建模角度集成大数据分析)、目前企业使用较多的Kylin海量数据OALP分析框架等,让学员真正领会到企业的大数据分析如何上手如何开发。

  • 重要程度:
    难度级别:
  • 就业岗位: Hadoop工程师(中级) 大数据开发工程师(初级) 数据仓库工程师(初级) ETL工程师(初级)
序号 课程名称 课程介绍 学习内容
01 分布式列存储数据库Hbase HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。本课程将重点介绍分布式存储的快速数据读写解决方案。 1、HBase 介绍、环境搭建
2、HBase Shel 基本操作
3、HBase 表的设计、物理存储结构
4、HBase Java API使用(结合电商订单实时查询案例)
5、Hbase与MapReduce集成读写数据
6、基于微博数据的存储与查询案例
02 项目实战1:基于HADOOP电商数据分析平台 离线数据分析平台是目前企业中一种比较流行的大数据分析系统,利用hadoop集群,结合Hive、Hbase等工具构建数据分析模型。主要功能在于辅助运营、决策等部门了解实际客户需求,对公司进行合理推广运营。大多数互联网企业对数据和用户的特性把握要求比较高,所以对于离线数据的分析有较高的要求。授课讲师拥有丰富的大数据分析平台的搭建开发经验,将全程手动实现代码,适合各层次学员学习,带你进入真正的企业大数据实战。 1、大数据分析流程、分析平台技术架构
2、实时数据采集Flume
3、项目需求分析
4、用户行为日志数据ETL
5、基于MapReduce的用户分析、会员分析、区域分析等
6、基于Hive集成HBase的会话分析
7、Hourly分析、订单分析等
8、基于SSM+Echarts数据展示
9、调度系统Azkaban使用
10、MapReduce及Hive性能优化
03 项目实战2:网站数据流量离线分析平台 离线数据分析平台是目前企业中一种比较流行的大数据分析系统,利用hadoop集群,结合Hive、Hbase等工具构建数据分析模型。主要功能在于辅助运营、决策等部门了解实际客户需求,对公司进行合理推广运营。大多数互联网企业对数据和用户的特性把握要求比较高,所以对于离线数据的分析有较高的要求。 授课讲师拥有丰富的大数据分析平台的搭建开发经验,将全程手动实现代码,适合各层次学员学习,带你进入真正的企业大数据实战。 1、大数据分析流程、分析平台技术架构
2、实时数据采集Flume
3、项目需求分析
4、用户行为日志数据ETL
5、基于MapReduce的用户分析、会员分析、区域分析等
6、基于Hive集成HBase的会话分析
7、Hourly分析、订单分析等
8、基于SSM+Echarts数据展示
9、调度系统Azkaban使用
10、MapReduce及Hive性能优化
04 Kylin 从入门到精通 Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay公司开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。本课程详细讲解Apache Kylin概念、安装、配置、部署,让读者对Apache Kylin构建大数据分析平台有一个感性认识。同时,从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。 1、kylin简介及安装部署
2、kylin官网demo测试及创建cube
3、使用流式数据Kafka创建cube
4、使用spark构建cube
5、JDBC Driver的使用
6、RESTful API的使用
7、cube的详解及项目设计
8、实战项目备份/还原kylin元数据
9、手机APP数据实战项目
05 可视化海量日志分析平台ELK Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于Restful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。结合日志收集系统Logstash、数据报表工具Kibana,搭建ELK平台是目前企业中最常见的大数据日志分析平台 1、全文检索引擎的介绍
2、Elasticsearch的介绍及其部署
3、Elasticsearch的快速入门案例
4、Elasticsearch的集群及Java API
5、Logstash快速入门
6、Kibana快速入门
7、ELK常见企业架构
8、ELK综合案例演示
06 Cloudera 5.x企业大数据运维监控平台 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现,HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权管理 5、Hadoop各组件性能调优 1、企业大数据平台管理软件CM5.x功能及回顾HADOOP框架知识
2、企业大数据平台基础环境准备
3、企业大数据平台CM5.3.x和CDH5.3.x的安装
4、使用CM5.3.x添加向集群添加主机
5、安装CMS服务、监控集群主机及如何对集群时间同步(脚本编写)
6、使用CM5.3.x安装Zookeeper集群、HDFS服务、安装YARN(includeMapReduce)、安装Hive安装部署Spark 1.6.1、安装配置Oozie和Hue
07 大数据可视化技术-工具篇:Tableau可视化分析 本课程是结合国内公司实际状况和讲师多年数据分析经验,通过一个真实的企业数据分析项目全流程的演练,系统而又详尽讲解了数据分析的六部曲:明确分析目的和思路、数据收集、数据分析、数据展现、报告撰写。过程中Tableau数据分析,对之前的课程作了一综合演练。相较于其他机构的纸上谈兵的课程,本课程更加专业化、系统化,相较于数据挖掘与编程算法更加易于理解和贴合业务。从简单的制作报表开始和大家一起学习数据分析的五大模块:报表BI系统、异常数据分析、解决数据需求、项目性数据分析以及数据建模,为大家全方位、体系化地呈现数据分析到底是什么。理论与实战结合,让学员对于大数据分析的理解与实操提升到一个新的台阶。 1、 数据分析六部曲之一:明确企业分析目的与思路
2、数据分析六部曲之二: 数据准备
3、数据分析六部曲之三:数据处理
4、数据分析六部曲之四:数据分析(Tableau)
5、数据分析六部曲之五:数据展现(Tableau)
6、数据分析六部曲之六:数据分析报告撰写

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段五:大数据之Spark分析课程

此阶段为我们整个课程的第四阶段,非常的关键重要,此阶段包含了两大部分,一是主要围绕Spark生态栈的三大核心模块框架进行讲解。由于Spark使用Scala语言编写的框架,因而快速的掌握Scala基础语法和函数式编程。Spark生态栈完成了离线批处理Core、交互式处理SQL和微实时流式数据分析,无论从编程还是开发运行,相对Hadoop生态系统的框架简单很多。目前企业中逐步使用以Spark为主的大数据技术框架进行数据的离线和实时分析,学好此部分无论是待遇还技术更上一层楼。二是围绕着现在流行的数据可视化技术,在大数据的基础上对数据进行进一步的可视化分析,这个也是现在企业最新反馈的需求,我们课程也有对此的讲解。

  • 重要程度:
    难度级别:
  • 就业岗位: Spark开发工程师(中级) Spark研发工程师(高级) 大数据Hadoop/Spark项目经理
序号 课程名称 课程介绍 学习内容
01 SCALA 语言基础 Scala语言具备面向对象和函数式两种编程范式,为程序设计带来了更大的灵活性和方便性。本门课程将简明扼要地介绍Scala的语言基础。完成本课程的学习后,同学们将对函数式编程有初步的认识,也能够编写简单的Scala代码。 1、SCALA 环境安装搭建和IDEA初步使用
2、变量、数据类型、流程控制语句
3、函数式编程:函数定义、匿名函数、高阶函数、可变参数函数等
4、Scala 集合:可变和不可变、列表List、元祖Tuple及Set和Map及常见高阶函数4、Scala OOP、模式匹配、隐式转换
02 Spark Core离线批处理 Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。本教程涉及Spark基础概念RDD,KeyValueRDD,RDD的常用Transformation和Action操作等。 1、Spark介绍、本地模式配置运行
2、弹性分布数据集RDD(特性及操作)
3、SparkStandalone集群及Application运行架构流程
4、HistoryServer配置及使用
5、基于IDEA开发、测试、打包及提交运行
6、基于SparkCore实现数据ETL和用户分析
7、Spark on YARN及应用运行部署模式
03 基于SparkSQL口碑商家客流量预测实战 本课程以“天池大赛数据”这一大数据应用案例为主线,使用淘宝真实日志,以目前主流的、最新的Spark稳定版2.2.x为基础,依次介绍相关的大数据技术:Hadoop、Hive、Spark SQL,涉及数据清洗、统计存储、处理入库以及数据可视化(Echarts、Zeppelin),最终会形成一个完整的大数据项目。 1、与Hive集成分析数据
2、Dataset/DataFrame是什么
3、外部数据源接口read和write
4、基于天池大赛的口碑商家流量预测分析
04 某房产中介经纪人风控管理平台 本课程以房地产公司为背景、以房产经纪人用户线上行为数据为依托、以大数据技术SparkCore、SparkSQL、SparkStreaming及SparkMLlib为核心,做到用精准数据说话,用智能数据管理,建立行为数据风控模型,实现房地产行业的风控。本课程实现如下四项功能:第一、风险行为分析,能从海量的线上行为数据中找到当天的违规行为,如泄露房源信息,违规获取业主信息牟取私利等;第二、风险分数计算,有理有据的计算出每个经纪人每天一个信用评级及风险分数;第三、关键行为实时监控报警,对一些重要的线上行为进行实时监控,报警及采取封锁等动作;第四、明细数据查询,提供给检核管理人员自定义多维度明细数据分析及查询。 1、基于Spark MLLib挖掘经纪人违规分险并计算风险分数(ETL + SparkCore/SparkSQL 获取行为日志数据,做标准化处理 并在业务上定义风险行为指标;SparkCore/SparkSQL获取正样本并标准化处理,根据风险行为指标建立风控模型,SparkMLlib FPGrowth计算出规则并完成评估;SparkCore调用规则数据计算出所有经纪人当天风险分数,信用评级及各指标命中数,各规则命中数并将结果集入库;SQL根据经纪人每天风险分及信用评级计算出综合风险评估并做可视化展示)
2、基于Spark SQL多维度检索经纪人行为明细
3、基于Spark Streaming实时监控经纪人违规操作
05 基于PySpark数据分析入门到实战 PySpark是目前企业中主流在使用进行大数据平台下的一个框架,把现在主流的Python及Spark结合起来使用,即利用到了Python强大的数据分析功能,又利用了Spark强大的实时功能。本课程详细介绍了PySpark框架的安装、配置、常见API,使用技巧等,并结合”航班信息分析“案例对上述内容全程演练 1、Spark简介、环境搭建
2、Spark 核心、Jupyter Notebook使用
3、词频统计:WordCount
4、使用PyCharm对航班信息数据分析
06 金融行业的CRM客户洞察与用户画 客户洞察是分析型客户关系管理的核心,是实现客户智能的必要手段,其旨在增加CRM系统的商业分析与辅助决策能力。分析型CRM需要整合外部客户数据、渠道数据和大量交易数据,并从中提取出隐含有用的信息,这便是数据科学的用武之地。本课程来源于企业的真实案例,通过本项目实战将所学全部知识串联起来,并且结合企业实际业务需求及情况让学员清楚了解企业的分析需求及实际分析工作内容,为最终进入企业打下坚实的基础。 1、初始客户信息获取
2、客户价值预测
3、初始信用评级与行为信用评级
4、客户细分与客户画像
5、经准营销与交叉销售
6、申请反欺诈与交易欺诈检测
7、知识图谱在申请欺诈中的运用
8、客户满意度与客户保留
9、客户行为偏好分析与产品推荐

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段六:大数据实时分析与机器学习

此阶段为我们整个课程的第五阶段,笑傲江湖,专家级阶段。本阶段偏大数据高级知识,包含Spark Mllib中机器学习算法、推荐系统的构建、如何依据企业需求技术选型大数据平台搭建及Lambda 架构大数据离线和实时数据采集、ETL与分析。学完本阶段课程以后,加上前面夯实的功底,冲刺企业大数据项目经理和大数据架构师完全OK,此外也推荐进一步学习Python的数据分析和机器学习提升技能。

  • 重要程度:
    难度级别:
  • 就业岗位: Spark 机器学习工程师 大数据实时数据分析工程师 大数据架构师(中级)
序号 课程名称 课程介绍 学习内容
01 Spark Streaming实时流式分析 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、及当前最火爆的Spark Streaming打造实时流处理项目实战,让你掌握实时处理的整套处理流程,达到大数据中级研发工程师的水平! 1、流式计算引入及各个框架的比较与选型
2、SparkStreaming内核原理及从Socket读取数据实时分析
3、DStream创建及常用Transformatio和Output使用
4、从Kafka读取数据及将结果存储到Redis中
5、实时累加统计updateStateByKey和基于时间的窗口window操作
6、从Kafka读取数据进行Structured Streaming结构化流式统计分析
02 仿双11实时营业额统计分析(基于SDK+Kafka+Storm+Redis) 本课程是典型的当今企业使用SparkStreaming进行实时数据ETL存储的场景。各个数据采集的框架和工具,将数据发送存储到Kafka Topic中,由于数据量相对较大,需实时进行收集,进行 ETL处理,存储到类似Hbase或者ES的数据库中,以便数据和快速的查询。 1、模拟Python爬虫爬取数据放入Kafka Topic中
2、SparkStreaming采用Direct方式从Kafka读取数据
3、HBase创建表及设置预分区和数据压缩
4、优化应用采用批量插入数据 到Hbase
5、综合实时应用的各个环节框架的性能调整
03 Storm实时数据分析 本课程对Storm进行全方位的讲解剖析,使听众能熟练部署Storm平台,并且跟其它开发环境以及大数据平台结合,开发出满足自己场景需要的实时分析系统。在目前的企业应用案例看,Storm主要用于实时分析(例如在淘宝),应用于对分析时效要求高的场景,众所周知,Hadoop擅长离线分析,实时是短项,Storm用流数据处理技术很轻巧地突破瓶颈,正好弥补了Hadoop的不足 1、Storm架构原理及集群环境搭建、测试运行
2、Topology介绍及拓扑图
3、从Kafka读取数据实时统计存储HBase表中编码实现
4、Storm的消息可靠性保障机制
5、Storm中Trident及DRPC使用

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段七:人工智能/机器学习(冲顶篇)

课程内容: 1、机器学习 简要概述和基本概念 2、SparkMLlib深入 3、机器学习类别及开发流程 4、机器学习经典技术架构 5、机器学习编程开发 6、大数据推荐系统 7、Python 语言基础、Python爬虫及Python可视化

序号 课程名称 课程介绍 学习内容
01 Spark MLlib机器学习 本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架;实现了常用的机器学习,如:聚类、分类、回归等算法。本课拒绝枯燥的讲述,将循序渐进从Spark的基础知识、矩阵向量的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。 1、机器学习 简要概述和基本概念
2、初步认识SparkMLlib中API
3、机器学习类别及开发流程
4、机器学习经典技术架构
5、机器学习编程开发
6、回归案例:预测Bike sharing系统每小时自行车的出租次数
7、推荐系统概述及效果评估方式
8、协同过滤算法
9、交替最小二乘法
02 基于Mahout、Spark Mlib实现的推荐系统(电影推荐、社交推荐) 推荐系统是大数据中最常见和最容易理解的应用之一,最著名的应用恐怕就是亚马逊公司的推荐引擎,其为浏览Amazon.com网站的用户提供个性化的内容。但是不仅仅只有电子商务公司会用推荐引擎为用户提供额外的商品,推荐系统也可以被用在其他行业,以及具有不同的应用中使用,从推荐音乐、活动、产品到约会对象。本课程主要讲述了大数据环境的下推荐系统从零搭建的全过程,通过两个项目实现全程内容贯穿,主要课程目标如下: 目标一:掌握推荐系统的原理
目标二:能够基于mahout、spark MLlib进行推荐系统的开发
03 Python 扫盲 本课程介绍机器学习首选语言Python,主要讲解了python语言的开发环境的搭建、模块管理工具的安装、介绍开发的模式,编写简单的代码和算法。Python的历史和生态环境介绍,开发环境的搭建,pip的介绍和安装,模块的概念介绍,编写简单的模块;模块的导入、认识Python的内置数据类型、算术运算符、逻辑运算符、定义函数,类、异常的处理和使用、文件操作等。 1、Python语言开发要点详解
2、Python开发环境搭建
3、Python数据类型和常见算法
4、Python 函数式编程
5、Python文件处理
6、Python类、异常处理
04 Python 核心编程 这是机器学习的第二门入门课程,机器学习是一门综合学科,需要数学、统计数基础及计算机相关编码技能,本课程在课程一的基础上进一步加强机器学习首选语言-Python的内容,涉及Python语言核心的集合、元组、泛型、字典及相关数据持久化等知识,为后继进一步深入机器学习打下坚实基础。 Python 中的集合,泛型,元组,字典
Python网络编程、多线程 、正则表达式
MySQL数据库精讲
MongoDB数据库精讲
Python中如何操作MySQL数据库
Python中如何操作MongoDB
05 数据收集– Python 爬虫技术 进行数据分析的前提是要有数据,数据的来源方式有很多种,其中有一种非常常见的数据获取方式就是利用网络爬虫抓了数据,Python是最好的进行网络爬虫的实现语言之一,利用其提供的Scapy框架可以很方便快捷高效的实现数据的收集,通过本门课程的学习,可以让零基础人群轻松掌握利用Python的urllib2、beautifulsoup及scrapy框架三种方式爬取网络上信息 Python爬虫原理与入门
利用requests及BeautifulSoup爬取数据
Beautiful Soup库的使用
利用及BeautifulSoup爬取数据
利用Scrapy框架爬取数据
爬虫综合项目实战
06 Python数据分析可视化库 – matplotlib Matplotlib 可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。这里将会探索 matplotlib 的常见用法。。通过本门课程的学习,可以应付后续机器学习课程中的绝大多数应用,建议掌握本部分的内容 Matplotlib简介
matplotlib程序包安装
简单的matplotlib程序
Matplotlib主要绘图类型(上)
Matplotlib主要绘图类型(下)
Matplotlib主要绘图参数
Matplotlib主要绘图装饰函数
Matplotlib文字标注与注释

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段八:大数据系统架构师(冲顶篇)

序号 课程名称 课程介绍 学习内容
01 程序员向架构师转型方法 软件行业技术开发从业人员众多,但具备若干年开发经验的普通的开发人员往往面临个人发展的瓶颈,即如何从普通开发人员转型成高层次的系统架构师和技术管理人员。想成为一名架构师,应当具备全面的知识体系,需要进行系统的学习和实践,很多开发人员有往架构师转型的强烈意愿,但苦于找不到好的方法和路径。本课程主要包含软件开发普通程序员如何向系统架构师进行转型的一些思路、方法和工程实践。 架构设计基本概念
剖析架构师角色
当程序员遇到架构师
架构师的视图
架构师的视角
程序员如何向架构师成功转型
作为架构师开展工作
02 架构师设计理论及模型 包括转型过程中意识形态的转变、技术体系的掌握、系统工程学的拓展以及各项软技能的提升等内容。深入剖析成为一名合格的架构师所需要的各项软硬技能,重点对目前业界主流的架构师所需掌握的技术知识领域,以及作为一名技术管理人员所需具备的技术管理能力进行详细展开,并结合一些典型的场景进行案例分析,帮忙学员了解并掌握迈向架构师所需的各种知识体系和实践技巧。 软件技术理论体系
架构风格及应用
架构模式及应用
设计原则的作用与SRP原则
OCP、LSP、ISP原则
DIP、迪米特、合成聚合复用原则
命令-查询分离、惯例优于配置、关注点分离原
03 面向服务架构SOA体系 本课程首先围绕普通开发人员如何向架构师转型这一课题,从架构师的角色以及转型过程中会遇到的困难及其解决方法切入展开讨论,总领整个课程。课程主体部分从软件架构体系结构、架构设计、技术体系等角度出发,详细介绍了架构师区别于一般开发人员所需要掌握的架构设计方法论与相关实践,包括架构风格与模式、领域驱动设计、类与框架设计、分布式系统架构设计、微服务架构设计、各种主流的技术体系与实践等内容。 分布式系统详解
面向服务SOA架构
REST架构设计
分布式设计理念
CAP理论与BASE思想
用例建模
静态和动态建模
架构建模
04 Dubbo服务总线 然后针对软件架构系统工程、业务模型设计、敏捷方法与实践、产品交付模型与质量控制等架构师所必须掌握的系统工程和过程管理知识以及应用进行详细阐述,确保其站在架构师的高度进行系统设计和开发完整生命周期的全局管理。作为技术团队的领导者,架构师同样需要具备相应的综合能力,课程的最后对架构师所需的各项软能力做全面介绍。 集群与负载均衡
应用服务器架构
分布式协调及在大数据体系中的应用
Dubbo服务引用
Dubbo集群
Simple注册中心
Zookeeper注册中心
下载全部课程表

上海市普陀区中山北路3553号4楼

Copyright © 2008-2018 上海容大教育培训有限公司 备案号:沪ICP备12015846号-1

账号登录
手机号快捷登录
还没有账号, 现在 注册
资料下载

大数据 全栈开发工程师 课程大纲 .pdf