课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段一:数据分析师认知篇

此阶段为我们整个课程的第一阶段,开发基础阶段。将主要侧重Java语言及结构化查询语言SQL语言的学习。通过对Java语言基础语法、OOP编程、多线程及网络编程、MySQL数据库、Maven项目管理等开发入门工具的学习,训练学员掌握大数据必备的基本编码能力,为后续进一步学习大数据分析/推荐系统等更高级的内容打下坚实且必要基础。

  • 重要程度:
  • 难度级别:
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 数据分析师先导篇

2课时

1、对数据分析专业有初步的了解
2、了解什么是数据分析
3、了解数据分析师的工作职责及工作流程
4、为自己树立职业目标"
1、数据分析的概念
2、数据分析的作用
3、数据分析六部曲
4、数据分析的三大误区
5、数据分析师的发展和职业要求
1、从零开始学会搭建Python开发环境
2、掌握Python基础语法
3、理解基本编程思想与方法
能够使用Python写一个简单的基于控制台的应用
02 逻辑为先—XMIND

3课时

思维导图将左右脑功能结合,通过目标管理 -> 方案制定->解决方案,让工作、学习、思考效率提升。它的界面比 FreeMind 要美观很多,绘制出的思维导图也更加漂亮,功能也更加丰富。它兼容FreeMind 和 MindManager数据格式,并且不仅可以绘制思维导图,还能绘制鱼骨图、二维图、树形图、逻辑图、组织结构图。 1、xmind简介
2、xmind作用
3、xmind模板的制作和下载
4、xmind内容制作
5、导入及导出
6、学习方法课堂案例
7、滴答拼车实战演练
8、其他思维导图介绍
1、学会用XMIND制作思维导图
2、整理思维逻辑性,在今后的工作和学习中灵活运用各类思维导图图表
无论是学习中的笔记还是工作中的会议纪要,还是改善自己的思维逻辑性,都可以用XMIND来解决。
03 流程主导—VISIO

4课时

Visio是一款便于IT和商务专业人员就复杂信息、系统和流程进行可视化处理、分析和交流的软件。使用具有专业外观的 Office Visio 图表,可以促进对系统和流程的了解,深入了解复杂信息并利用这些知识做出更好的业务决策。 1、VISIO的基本布局和功能模块
2、流程图结构说明
3、DO&DONOT业务流程图注意事项
4、项目实战:制作简单流程图
5、使用Visio画UML序列图
学会利用VISIO制作业务流程图,了解公司详细的业务流程 对公司业务流程更加清晰,为后续分析做好基础。
04 专业展现——PPT

1课时

专业数据分析师会以PPT或文档方式对报告进行专业展现。而PPT的制作是展示一个分析师是否专业的直接标准。通过对本门课程的学习会使学员掌握高效,美观,炫酷,专业的制作方法。 1、专业展现—PPT
2、基本简介
3、几个不得不说的真相
4、经验分享
5、实战动画
学会专业的PPT制作,让你的数据报告看起来更专业,为最后的数据分析报告锦上添花 学会做好看的ppt,是你成为优秀数据分析师的秘密武器,它会在老板面试帮你展现你的展业水准!

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段二:数据预处理分析篇

本课程为数据分析的初级应用阶段,主要通过Python语言、Excel、Power BI、My SQL、Tableau等可视化工具进行对数据的预处理,让学员能够在拿到数据后对数据进行清洗,转换等处理,为接下来的数据建模打下基础。

  • 重要程度:
  • 难度级别:
本课程本课程针对初学者的学习特点,在结构上采用“由浅到深、由点到面、由传统运算到综合应用”的组织思路,在教学上采用“理论与实际相结合”的教学原则,全面具体地对Power BI的基础操作、连结数据、加载数据、处理数据、转换和塑造数据、建模数据、可视化数据显示、数据分析等内容作了介绍。在正课讲解过程中还穿插了很多操作技巧,如此安排,旨在让学员学会Power BI的基础知识,掌握Power BI的操作技能,并能熟练应用Power BI于数据分析的工作之中,实现数据的中高级展现。
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 Excel数据处理与分析实战

48课时

本课程针对初学者的学习特点,在结构上采用“由浅到深、由点到面、由传统运算到综合应用”的组织思路,在教学上采用“理论与实际相结合”的教学原则,全面具体地对Excel的基础操作、数据内容的输入与编辑、公式与函数的应用、数据的排序与筛选、分类汇总与合并计算、透视表/透视图的应用、工作表的输出打印、power view、power map等内容作了介绍。在正课讲解过程中还穿插了很多操作技巧,旨在让学员掌握Excel的操作技能,并能熟练应用Excel于数据分析的工作之中,通过以上操作可以实现对数据的基本展现。 1、用Excel实现数据清洗和转化
2、用Excel之Power Query实现数据转换和清洗
3、数据分析和建模(power query和power pivot的使用)
4、数据展现之基本统计图介绍及简单制作
5、数据展现之利用Excel实现基本数据透视表
6、数据展现之利用Power View实现高级透视表
7、数据展现之利用Power Map实现bing地图
8、宏与VBA
9、Excel解决某公司财务报表动态生成
1、熟练掌握用Excel、power query实现数据的清洗和转换
2、学会使用power pivot进行数据建模
3、学会利用power view、power map实现数据展现
4、了解宏与VBA
学完本课程可基本完成数据分析的工作,包括数据预处理,数据建模,数据分析以及数据展现,达到初级数据分析师的标准。
02 Power BI快速上手商业数据可视化

16课时

1、微软Power BI简介
2、通过power pivot报告快速上手power bi
3、Power BI Desktop 界面介绍和数据导入整理
4、Power BI Desktop建立数据分析模型
5、Power BI Online Service(在线版)特有功能
6、Power BI Online Service 报告的分享与写作
7、power bi和Excel的配合
8、数据的刷新
9、仪表板的制作原则
10、常用可视化图表介绍
11、Power BI 之巧用地图
1、掌握Power BI 桌面版的使用
2、使用power BI desktop进行数据的导入、处理、建模、及分析
3、学会及配合使用power bi和Excel
4、学会使用power bi进行三维地图的绘制
1、通过power bi desktop可快速建立数据模型
2、通过power bi desktop可在网页端进行数据展现
3、通过power bi desktop可实现数据实时更新并发表。
03 Tableau数据可视化应用实战

24课时

本课程基于Tableau 10.3最新版本研发,详细介绍了Tableau的数据连接与编辑、图形编辑与展示功能,包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等主要内容。同时,课程以丰富的实际案例贯穿始终,对各类方法、技术进行了详细说明,方便读者快速掌握数据分析方法,实现对数据的高级展现。 1、Tableau 概述
2、Tableau新手上路
3、Tableau连接数据并准备数据
4、Tableau设计视图
5、利用Tableau工具分析数据
6、Tableau浏览与关注web内容
7、Tableau Serve与Tableau Online
8、Tableau连接My Sql进行数据分析
9、Tableau地图绘制与图像
10、Tableau高级图表类型
11、Tableau函数、公式与高级数据分析
Tableau综合案例分析1:某电商网站行为分析
Tableau综合案例分析2:某在线教育网站指标评估
Tableau综合案例分析3:网络广告营销分析
Tableau综合案例分析4:某零售行业进销存分析
1、了解Tableau的安装与基本使用方法
2、使用Tableau进行数据可视化展示
3、掌握Tableau函数、公式与高级数据分析
1、能够使用Tableau进行数据的高级可视化展示
2、能够利用Tableau对网站数据进行高级数据分析
04 My Sql数据库自动化操作及应用

40课时

通过本门课程的学习,可以让学员熟悉MYSQL环境搭建及基本的错误处理和配置,掌握MYSQL数据库和表的创建、修改方法.了解数据库和表的基本结构,熟练使用DML语句对表进行CURD操作,熟悉事务的基本概念,掌握使用事务进行业务提交和回滚。能够利用SQL语句进行复杂的业务查询与处理。后继的数据可视化工具将结合MySQL数据库进行数据分析操作。 1、初识My Sql(安装My Sql、使用CMD登录My Sql、数据库数据类型、约束、Navicat介绍、Navicat创建数据库、Navicat填充数据)
2、SQL进阶
3、多表查询及存储过程
4、商品进销存项目实战
1、了解数据库数据类型
2、学会创建并使用数据库
3、熟练掌握数据库的增删改查
4、掌握数据库的多表查询及存储过程
1、可从企业中的数据库直接导出数据进行分析
2、可在数据库中进行数据操作
3、可将数据可视化工具结合MySQL数据库进行数据分析操作

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段三:数据挖掘篇

此阶段为我们整个课程的第三阶段,数据挖掘篇。侧重于数据的分析和建模。通过对基本的数理统计知识的学习,达到利用高级分析工具及方法对业务分析预测的目的。

  • 重要程度:
  • 难度级别:
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 数据分析—数理统计基础

8课时

“数据科学与大数据技术”专业设置中,数学和统计学属于必修的核心学科,可见其重要性。很多同学开始学习大数据和数据分析时候后遇到的最大障碍也是数学,到底从事大数据和数据分析需要掌握哪些数学知识呢?需要掌握到什么程度呢? 本门课程就是专门针对没有数理统计基础的学员量身订数的数据分析课程,通过本门课程的学习,能够理解大数据中的数理基础,并深入了解数理统计的概念及在大数据中的应用。内容涵盖数学分析、高等代数、概率论、数理统计中的关键知识点,为后期更深入的学习大数据分析挖掘、机器学习等更高级的课程打下良好基础。 1、概率
2、样本与抽样
3、描述数据(统计量)
4、正太分布
5、统计推断
6、实验设计
7、变量之间的关系
8、回归分析
9、聚类分析
1、掌握统计学的基本理论
2、了解数据分析中的高级分析
1、能够通过对理论的学习为后续的高级分析打下基础
2、通过高级分析方法对复杂数据进行高级数据分析
02 SPSS建模分析

8课时

SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。 1、spss入门介绍
2、好的开始是成功的一半—数据录入与数据处理
3、化简为繁—描述性统计分析
4、看图说话—统计图表分析
5、真假博弈1——假设检验概述与t检验
6、真假博弈2——非参数检验与卡方检验
7、万物皆有联系——相关分析与回归案例
8、影响因素判断——方差分析
9、与时俱进——时间序列分析
10、泾渭分明——分类算法
11、物以类聚——聚类算法
12、大道至简——降维方法研究
项目案例:spss 人口普查数据分析实例
1、了解SPSS的建模分析方法 1、能够利用所学的spss知识解决实际工作中遇到的复杂问题
2、为后续学习的深入学习打下基础
03 SAS建模分析

16课时

SAS系统全称为Statistics Analysis System,于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,堪称统计软件界的巨无霸。 1、SAS基本介绍 2、SAS的安装
3、SAS运行环境的界面介绍
4、Insight模块 5、SAS编程基本语法
6、数据的导入与导出 7、Analyst模块
8、SAS运算符及函数 9、DATA步信息语句
10、Assist模块 11、Assist模块
12、使用SAS制作统计分析报表
13、使用STAT模块进行统计分析介绍
14、SAS中的宏语言 15、Enterprise Miner 数据挖掘模块
16、使用ETS模块对面板数据进行计量分析
项目案例: 商品管理系统分析案例解析
1、了解SAS的基本介绍,安装及界面
2、了解SAS的编程基本语言
3、使用SAS制作统计分析报表
1、了解什么是SAS
2、了解SAS的工作方法
3、利用SAS进行数据高级建模
04 MATLAB数理统计

16课时

MATLAB意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,代表了当今国际科学计算软件的先进水平。 1、了解Matlab 2、Matlab语言基础
3、Matlab的选择结构 4、Matlab的循环结构
5、自定义函数 6、复数及其作图
7、高维数组与稀疏矩阵
8、单元数组和结构数组
9、Matlab的数值运算
10、Matlab的符号运算
11、I/O操作 12、图形对象接口(GUI)
13、结束篇
1、了解Matlab的语言基础及各种机构
2、学会利用Matlab进行可视化高级建模
1、能够实现对数据进行高级可视化建模

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段四:Python数据分析篇

此阶段为我们整个课程的第四阶段,Python数据分析。将主要侧重Python语言及数据分析包的学习。通过对Python语言、Python数据处理、分析包及可视化包的学习,训练学员掌握必备的基本编码能力,为后续更高级的内容打下坚实且必要基础。

  • 重要程度:
  • 难度级别:
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 Python 扫盲

1天

本课程介绍机器学习首选语言Python,主要讲解了python语言的开发环境的搭建、模块管理工具的安装、介绍开发的模式,编写简单的代码和算法。Python的历史和生态环境介绍,开发环境的搭建,pip的介绍和安装,模块的概念介绍,编写简单的模块;模块的导入、认识Python的内置数据类型、算术运算符、逻辑运算符、定义函数,类、异常的处理和使用、文件操作等。 Python语言开发要点详解
Python开发环境搭建
Python数据类型和常见算法
Python 函数式编程
Python文件处理
Python类、异常处理
1、从零开始学会搭建Python开发环境
2、掌握Python基础语法
3、理解基本编程思想与方法
能够使用Python写一个简单的基于控制台的应用
02 Python 核心编程

2天

这是机器学习的第二门入门课程,机器学习是一门综合学科,需要数学、统计数基础及计算机相关编码技能,本课程在课程一的基础上进一步加强机器学习首选语言-Python的内容,涉及Python语言核心的集合、元组、泛型、字典及相关数据持久化等知识,为后继进一步深入机器学习打下坚实基础。 Python 中的集合,泛型,元组,字典
Python网络编程、多线程 、正则表达式
MySQL数据库精讲
MongoDB数据库精讲
Python中如何操作MySQL数据库
Python中如何操作MongoDB
1、对Python的集合,泛型、元组深入理解与掌握
2、掌握Python面向对象编程
3、光速上手MySQL & MongoDB 数据库
4、掌握Python如何操作MySQL数据库
5、掌握Python如何操作MongoDB数据库
1、利用python类库实现更加高级的数据处理
2、可以把爬虫获取到的数据存放到数据库中
3、熟练使用Python进行数据持久化工作
03 数据收集– Python 爬虫技术

3天

进行数据分析的前提是要有数据,数据的来源方式有很多种,其中有一种非常常见的数据获取方式就是利用网络爬虫抓了数据,Python是最好的进行网络爬虫的实现语言之一,利用其提供的Scapy框架可以很方便快捷高效的实现数据的收集,通过本门课程的学习,可以让零基础人群轻松掌握利用Python的urllib2、beautifulsoup及scrapy框架三种方式爬取网络上信息 Python爬虫原理与入门
利用requests及BeautifulSoup爬取数据
Beautiful Soup库的使用
利用及BeautifulSoup爬取数据
利用Scrapy框架爬取数据
爬虫综合项目实战
1、了解Python爬虫的基本工作原理
2、掌握Python爬虫的基本类库:urllib2、beautifulsoup的使用
3、熟练使用Scrapy框架进行数据的抓取
1、使用 Python 库进行豆辩电影分析
2、能够利用Scrapy框架实时抓取京东、天猫商城数据
04 Python科学计算库 - Numpy

2天

本门课程主要介绍现在主流的数据科学工具包Numpy的使用。课程分入门和进阶两个部分通过入门部分的学习,可以应付后续机器学习课程中的绝大多数应用;而对于想要更深入探究算法原理的学员,建议掌握进阶部分的内容。 NumPy 简介、程序包、简单的Numpy程序
Ndarray的文件操作
操作多维数组ndarray、索引、索引数组、布尔数组
改变ndarray的形状
ndarray的基本运算
numpy进阶
numpy高级:广播、复制与视图
1、了解Numpy的安装与快速使用
2、阅读Numpy API并熟练使用其核心方法
3、掌握Numpy对一维、二维及多维数据的使用技巧
1、能够利用Numpy包进行一些金融,电商等 数据的量化分析工作
2、能够利用Numpy进行数据的科学计算
3、能够用Numpy实现“人工智能/机器学习”各种经典算法
05 Python科学计算库 - Scipy

2天

本门课程主要介绍常用的数据科学工具包Scipy。课程分入门和进阶两个部分,numpy提供了数组对象,面向的任何使用者。scipy在numpy的基础上,面向科学家和工程师,提供了更为精准和广泛的函数。scipy几乎实现numpy的所有函数,一般而言,如果scipy和numpy都有这个函数的话,应该用scipy中的版本,因为scipy中的版本往往做了改进,效率更高。通过入门部分的学习,可以应付后续机器学习课程中的绝大多数应用;而对于想要更深入探究算法原理的学员,建议掌握进阶部分的内容。 简单的SCIPY程序
SCIPY程序包
scipy简介
线性代数基础知识_向量
线性代数基础知识_矩阵
特征值和特征向量
解线性方程组
最小二乘法
1、了解Scipy包的安装与基本使用方法
2、阅读Scipy API并熟练使用其核心方法
3、掌握Scipy的科学计算方法与技巧
1、能够利用Scipy包完成人工智能/机器学习应用中的一些专业数学统计运算
2、能够利用Scipy进行人工智能/机器学习应用中的科学计算
3、能够用Numpy+Scipy实现“人工智能/机器学习”各种经典算法
06 Python数据分析库 – Pandas

2天

pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。通过本门课程的学习,可以应付后续机器学习课程中的绝大多数应用,建议掌握本部分的内容。 Pandas 简介\PANDAS程序包安装
简单的PANDAS程序\Series类说明
Series的bool运算选择\SERIES的复杂操作
DataFrame的常用构造方式与操作
分组求和(聚合操作)\列与列之间的四则运算
删除某一列\按位置选定指定的行和列
DataFrame与DataFrame之间的join操作
1、了解Pandas包的安装与基本使用方法
2、阅读Pandas API并熟练使用其核心方法
3、掌握Pandas的科学计算方法与技巧
1、能够利用Pandas包进行人工智能/机器学习应用的数据分析工作
2、能够利用Pandas包简化人工智能/机器学习应用中的科学计算
3、能够利用Pandas实现“人工智能/机器学习”各种经典算法
07 Python数据分析可视化库 – matplotlib

3天

Matplotlib 可能是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。这里将会探索 matplotlib 的常见用法。。通过本门课程的学习,可以应付后续机器学习课程中的绝大多数应用,建议掌握本部分的内容 Matplotlib简介
matplotlib程序包安装
简单的matplotlib程序
Matplotlib主要绘图类型(上)
Matplotlib主要绘图类型(下)
Matplotlib主要绘图参数
Matplotlib主要绘图装饰函数
Matplotlib文字标注与注释
1、了解matplotlib包的安装与基本使用方法
2、阅读matplotlib API并熟练使用其核心方法
3、掌握matplotlib的绘图技巧,实现可视化展示
1、能够使用 Python 库进行豆辩电影分析
2、能够利用对人工智能/机器学习处理后的数据进行可视化展示

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段五:大数据分析篇(必修篇)

此阶段为我们整个课程的第五阶段,不需要学员具备Java基础知识,也不需要学员了解大数据环境,只需要学员有Python及数据库基础知识,便可以学习此部分内容。此部分内容,老师将会直接给到学员一个真实的大数据开发环境,直接在这个真实的开发环境里结合实际的四个小案例手把手的教大家去实现一个Python+Spark(PySpark框架)的具体应用,这是目前大据分析师工作的主要内容,干货满满!

  • 重要程度:
  • 难度级别:
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 大数据分析Hadoop及Python实现

1.5天

本部分抽取出做大数据分析之必知必会的虚拟机搭建、Linux常见命令和Hadoop内容,重点讲解了Python中如何与Hadoop结合实现离线数据分析,最后通过一个“股票分析案例“对上述内容进行全程演练,让学员彻底掌握这块内容 1、大数据框架Hadoop介绍、MapReduce思想
2、使用QuickStart VM快速搭建环境、数据基本存储命令
3、案例一:Python实现Hadoop MapReduce 词频统计
4、案例二:Python实现Hadoop MapReduce 的IBM股票价格数据分析
5、案例二:Matplotlib绘图展示分析结果
项目涉及到技术有:
Python基础语法与核心编程
Python中的爬虫技术
Numpy数据处理
Pandas数据分析
Matplotlib\PyEcharts的数据可视化等技术。
1、了解了一个真实的数据分析项目全流程
2、能够对之前学习过的Python爬虫技术结合项目有更深入的理解
3、掌握numpy,pandas 结合 matplotlib\PyEcharts进行可视化数据分析与展示
02 大数据分析框架PySpark基本使用

1天

PySpark是目前企业中主流在使用进行大数据平台下的一个框架,把现在主流的Python及Spark结合起来使用,即利用到了Python强大的数据分析功能,又利用了Spark强大的实时功能。本课程详细介绍了PySpark框架的安装、配置、常见API,使用技巧等,并结合”航班信息分析“案例对上述内容全程演练 1、Spark简介、环境搭建
2、Spark 核心、Jupyter Notebook使用
3、词频统计:WordCount
4、使用PyCharm对航班信息数据分析
项目涉及到技术有:
1、Excel的数据处理与分析技术
2、Power BI的数据处理与分析技术
3、Tableau的数据处理与分析技术
4、可视化展示
1、了解了一个真实的数据分析项目全流程
2、掌握可视化分析工具结合业务的综合运用
03 PySpark分析某航天中心服务器日志

2天

数据分析里有一个典型的应用就是日志分析,本课程在前一个课程的基础上更侧重于实际应用。通过一个完整的”航空信息日志“在PySpark中的数据分析,使学员短时间内掌握PySpark的一些高级技巧,使用学员对该框架的理解和使用更上一个台阶 1、服务器日志读取解析
2、日志数据采样统计概览
3、基于不同需求分析日志数据
4、分析展示404响应日志数据
1、通过项目实战充分掌握数据分析的全部工作流程
2、通过项目实战串联所学内容
3、在实战项目过程中发现并解决自己的问题点
可以实际参与到企业真实的数据分析工作,利用自己所学知识内容完成企业分析需求并制作专业数据分析报告。
04 专业展现——PPT

2天

本课程主要讲解了Hive如何结合PySpark框架进行数据的分析。本课程不仅停留在理论层面,而是全程案例贯穿,通过一个“影评数据分析系统”完整的演示了Hive SQL 如何与PySpark集成分析的全过程 1、大数据SQL分析框架Hive使用
2、HQL结合Python脚本影评数据分析
3、PySpark与Hive集成分析
4、基于SQL和DSL的PySpark分析
1、通过项目实战充分掌握数据分析的全部工作流程
2、通过项目实战串联所学内容
3、在实战项目过程中发现并解决自己的问题点
可以实际参与到企业真实的数据分析工作,利用自己所学知识内容完成企业分析需求并制作专业数据分析报告。

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段六:精英项目实战篇

此阶段为我们整个课程的第六阶段,精英项目实战篇。借助四大商业级项目实战,让学员对数据分析应用有一个全面的理解与认识,让学员在工作中有机会冲击高级数据分析师工作岗位,从而成为这个领域的专家

  • 重要程度:
  • 难度级别:
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 综合项目实战01 - Python豆瓣电影分析系统

1.5天

本项目系Python数据分析模块全部学习完成后最终的一个综合项目实战课程,项目通过真实的豆瓣电影数据的分析,从数据的抓取,到数据的清洗、处理、拆分、合并、去重、特征值提取,到最后的数据分析及可视化数据展示,全面演示了一个数据分析业务的运行全过程。 通过一个真实项目演示一个数据分析项目全流程,主要包括:
1、业务需求分析
2、数据收集
3、数据清洗
4、数据处理
5、数据分析
6、数据可视化分析展示
7、数据分析报告
项目涉及到技术有:
Python基础语法与核心编程
Python中的爬虫技术
Numpy数据处理
Pandas数据分析
Matplotlib\PyEcharts的数据可视化等技术。
1、了解了一个真实的数据分析项目全流程
2、能够对之前学习过的Python爬虫技术结合项目有更深入的理解
3、掌握numpy,pandas 结合 matplotlib\PyEcharts进行可视化数据分析与展示
02 综合项目实战02 - 豆瓣电影可视化分析系统

1天

本项目系《综合项目实战01 - Python豆瓣电影分析系统》的子妹篇,本项目在上述项目的基础上,侧重于可视化工具的使用。通过真实的豆瓣电影数据的分析,借助Excel,PowberBI,Tableau等可视化工具,完成了数据的的清洗、处理、拆分、合并、去重、特征值提取,到最后的数据分析及可视化数据展示,全面演示了一个数据分析业务的运行全过程。 通过一个真实项目演示一个数据分析项目全流程(借助可视化分析工具),主要包括:
1、业务需求分析
2、数据收集
3、数据清洗
4、数据处理
5、数据分析
6、数据可视化分析展示
7、数据分析报告
项目涉及到技术有:
1、Excel的数据处理与分析技术
2、Power BI的数据处理与分析技术
3、Tableau的数据处理与分析技术
4、可视化展示
1、了解了一个真实的数据分析项目全流程
2、掌握可视化分析工具结合业务的综合运用
03 Python商业数据科学实战系统课程-1:CRM客户洞察与用户画像系统(Python篇)

2天

客户洞察是分析型客户关系管理的核心,是实现客户智能的必要手段,其旨在增加CRM系统的商业分析与辅助决策能力。分析型CRM需要整合外部客户数据、渠道数据和大量交易数据,并从中提取出隐含有用的信息,这便是数据科学的用武之地。本课程来源于企业的真实案例,通过本项目实战将所学全部知识串联起来,并且结合企业实际业务需求及情况让学员清楚了解企业的分析需求及实际分析工作内容,为最终进入企业打下坚实的基础。 1、初始客户信息获取
2、客户价值预测
3、初始信用评级与行为信用评级
4、客户细分与客户画像
1、通过项目实战充分掌握数据分析的全部工作流程
2、通过项目实战串联所学内容
3、在实战项目过程中发现并解决自己的问题点
可以实际参与到企业真实的数据分析工作,利用自己所学知识内容完成企业分析需求并制作专业数据分析报告。
04 Python商业数据科学实战系统课程-2:CRM客户洞察与用户画像系统(Python+大数据篇)

2天

本课程源于一个企业的真实项目。在《Python商业数据科学实战系统课程-1:CRM客户洞察与用户画像系统(Python篇)》课程的基础上加入了大数据的内容,系其子妹篇,要求能够在大数据平台上完成用户的分析 预警及精准营销的功能 1、经准营销与交叉销售
2、申请反欺诈与交易欺诈检测
3、知识图谱在申请欺诈中的运用
4、客户满意度与客户保留
5、客户行为偏好分析与产品推荐
1、通过项目实战充分掌握数据分析的全部工作流程
2、通过项目实战串联所学内容
3、在实战项目过程中发现并解决自己的问题点
可以实际参与到企业真实的数据分析工作,利用自己所学知识内容完成企业分析需求并制作专业数据分析报告。

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段七:大数据分析师(选修冲击篇)

此阶段为我们整个课程的第七阶段,属选修内容,需要学员具备基本的Java语言编程能力,主要介绍了大数据平台的基本搭建及Spark,Storm结合来完成在大数据环境下的数据分析及实时数据分析的要求。有对大数据开发感兴趣,希望了解更多大数据相关内容的同学可以选修

  • 重要程度:
  • 难度级别:
1、通过一个电商实时系统了解天猫双11系统架构与关健核心技术
2、掌握SparkStream+Kafka+Redis如何结合业务使用
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 Linux 系统运维管理

3天

随着人工智能、大数据时代的到来,Linux的地位与日俱增!本门课程的讲师用通俗易懂的语言,以主流CentOS操作系统为例,系统讲解Linux知识点:多语言运行环境配置、常用软件及应用部署、运维必备服务等实用技能,助你快速上手独立配置Linux操作系统,为部署大数据应用环境打下扎实的基础。 1、Linux发展及介绍
2、Vmvare与Centos6.x的安装部署
3、Linux文件管理及用户管理
4、Linux权限管理与常用工具命令
5、Linux网络管理与系统管理
6、Linux软件管理与正则表达式
7、Shell编程应用
8、Linux定时任务Crontab
1、了解Linux环境的安装部署
2、熟练使用Linux常用管理命令
3、熟练使用Shell编程开发Shell批处理脚本
4、熟练使用Linux Crontab定时任务
1、能够独立熟练操作Linux,完成各种应用工具的安装部署
2、能够根据需求独立完成shell脚本的开发与定时调度
02 大数据存储分析HADOOP框架入门

2天

大数据时代已经到来,越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop,作为一个开源的分布式并行处理平台,以其高扩展、高效率、高可靠等优点,得到越来越广泛的应用。本课旨在培养学员理解Hadoop的架构设计以及掌握Hadoop的运用能力。 1、大数据概论
2、HADOOP 框架及伪分布式环境
3、HDFS分布式文件系统
4、MapReduce并行计算框架
5、YARN分布式资源管理
6、MapReduce企业开发案例
7、Hadoop分布式集群部署
8、Hadoop容灾方案:高可用
1、了解Hadoop体系架构及设计思想
2、掌握HDFS设计及运行原理,熟练使用HDFS操作命令
3、熟练掌握MapReduce运行原理,熟练使用Java开发MapReduce应用
4、熟练管理Hadoop集群,部署分布式及容灾方案
1、能够独立部署Hadoop集群,并配置容灾方案,解决集群常见问题
2、能够根据需求使用Java熟练开发MapReduce程序
03 大数据仓库工具HIVE

2天

Hive是基于Hadoop的一个数据仓库工具,提供了强大的数据操作能力,包括数据的导入,查询和丰富的内置函数。同时,Hive也提供了对应的客户端可以操作数据,通过Java编程可以创建自定义函数来实现具体的业务逻辑。本课程将带你进入大数据开发分析的新世界,使用SQL语言对大数据进行分析处理。 1、Hive引入、介绍及安装
2、Hive 的DDL(数据库创建及表的三种创建方式)
3、Hive 外部表、分区表及加载数据和基本SQL使用
4、Hive高级电商案例分析
5、Hive Server2及beeline与JDBC使用
1、了解Hive的基本架构及实现原理
2、熟练使用SQL语句管理Hive中的数据库、表、数据
3、熟练使用Hive解决业务需求
4、熟练使用Hive提供接口开发应用
1、能够独立完成Hive的安装部署构建数据仓库
2、能够使用SQL根据需求实现数据的统计分析
04 SCALA 语言基础

3天

Scala语言具备面向对象和函数式两种编程范式,为程序设计带来了更大的灵活性和方便性。本门课程将简明扼要地介绍Scala的语言基础。完成本课程的学习后,同学们将对函数式编程有初步的认识,也能够编写简单的Scala代码。 1、SCALA 环境安装搭建和IDEA初步使用
2、变量、数据类型、流程控制语句
3、函数式编程:函数定义、匿名函数、高阶函数、可变参数函数等
4、Scala 集合:可变和不可变、列表List、元祖Tuple及Set和Map及常见高阶函数4、Scala OOP、模式匹配、隐式转换
1、了解Scala语言优势
2、掌握如何安装配置Scala环境
3、掌握Scala中变量声明
4、熟练使用Scala中高阶函数和匿名函数
5、理解Scala模式匹配和隐式转换
6、掌握Scala中集合类及List列表中常见高阶函数的使用
本阶段完成可以为后续Spark和Kafka学习查看源码打下基础,更好的理解Spark框架的精髓,企业中很多是基于Scala语言编写代码分析数据的。
05 Spark SQL结构化数据处理

2天

本课程以“天池大赛数据”这一大数据应用案例为主线,使用淘宝真实日志,以目前主流的、最新的Spark稳定版2.2.x为基础,依次介绍相关的大数据技术:Hadoop、Hive、Spark SQL,涉及数据清洗、统计存储、处理入库以及数据可视化(Echarts、Zeppelin),最终会形成一个完整的大数据项目。 1、与Hive集成分析数据
2、Dataset/DataFrame是什么
3、外部数据源接口read和write
4、基于天池大赛的口碑商家流量预测分析
1、了解SparkSQL前世今生
2、掌握SparkSQL的核心思想Dataset/DataFrame设计
3、熟练使用SQL和DSL进行数据分析
4、SparkSQL分析中性能优化
使用SQL或者DSL进行海量结构化数据分析,结合Python语言进行企业化的数据处理和机器学习中数据预处理操作,也能实现海量数据交互式快速分析。
06 项目实战:基于SparkStreaming+Kafka仿某宝实时订单销售额统计

1天

2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫Jstrom。
本项目模仿一个电商系统,每时每刻都有订单成交,每一笔成交的数据以一个事件发送到Kafka中,SparkStream每一分中从Kafka中读取一次数据,计算一分钟内每个商品的销售额,然而写入Redis,并在Redis中累加每分钟的数据,Redis中主要存三种结果数量,从开始到当前总销售额、从开始到当前每个商品销售额、上一分钟每个商品的销售额
1、了解一个实时系统如何构建及功能
2、掌握SparkStream如何和Kafka交互
3、掌握Kafka如何与Redis进行交互
4、熟练使用SparkStream结合Redis进实时数据分析
5、理解实时系统的关健技术

课程时长:约 66天,每天不低于 6小时

授课方式:线下面授 + 翻转课堂(部分课程结合平台在线课程)

阶段八:人工智能/机器学习(选修冲顶篇)

此阶段为我们整个课程的第七阶段,属选修内容。需要学员具备比较强的算法数学能力及一定的Python编程能力,主要介绍了人工智能机器学习的入门知识及必备算法能力,通过具体的项目演示了人工智能/机器学习在实际工作中运用,会将来更进一步的深入人工智能学习打下良好的基础

  • 重要程度:
  • 难度级别:
序号 课程名称 课程介绍 学习内容 课时目标 学完后做什么
01 机器学习入门

1天

这是机器学习的入门课程,首先通过一个生活中的例子去理解数据挖掘和机器学习的概念,然后介绍了数据挖掘解决常见问题,常用的机器学习算法,以及经典应用案例。同时还介绍了机器学习的方法论和流程,为后续学习打下基础。 机器学习扫盲
数据挖掘和机器学习概述
快速理解数据挖掘和机器学习
数据挖掘的六大任务
数据挖掘方法论(CRISP-DM)
预测模型的构建和应用流程
机器学习算法及分类.
数据挖掘与数据仓库和OLAP
数据挖掘和机器学习应用案例
如何成为一名优秀的数据科学家
1、了解什么是人工智能/机器学习
2、了解人工智能/机器学习应用领域
3、了解人工智能/机器学习的实现基本思路与方法
1、能够对人工智能与机器学习、深度学习之间的关系有了一个深入的理解
2、能够知道开发一个人工智能的应用一些基本的套路与实现步骤
3、对十大经典人工智能/数据挖掘算法有一个基本的认知
02 机器学习十大经典算法原理与实现(入门篇)

2天

本门课程介绍了国际权威组织ICDM于2006年12月评选出来的数据挖掘领域的十大算法,此十大算法分别涉及后面我们要讲到的监督学习、无监督学习、加强学习等分类,为机器学习之必学篇。这门课程只对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,后继课程对各算法有专题讲解。 决策树算法原理与适用场景
随机森林算法原理与适用场景
逻辑回归算法原理与适用场景
SVM算法原理与适用场景
朴素贝叶斯算法原理与适用场景
K最近邻算法原理与适用场景
K均值算法原理与适用场景
Adaboost 算法原理与适用场景
神经网络算法原理与适用场景
马尔可夫算法原理与适用场景
1、了解十大经典算法的发展历史与由来
2、了解十大经典算法的原理与公式
3、了解十大经典算法的具体应用和适应场景
1、了解十大经典算法是什么,为什么 ,以及怎么用
2、了解十大经典算法的经典应用场景及实际解决什么问题
3、能够知道在什么场景下我们应该用哪个算法来解决实际问题
4、为后继具体算法在人工智能/机器学习具体业务应用打下基础
03 机器学习实战案例-1:基于FP-growth算法实现的新闻网站流量点击分析系统

1天

在新闻网站上,一个会用户不断点击和浏览各种新闻报道,最终该用户的这些点击会被记录下来,成为该用户点击的历史记录。而所有用户的点击历史记录,是一个蕴含了巨大价值的数据集。我们可以从各个角度,使用不同的方法来进行有价值的挖掘,并应用到不同的任务中去。
本项目就是从用户点击的历史记录中,挖掘频繁项集,以便知道哪些新闻报道是经常关联在一起的。从而为网站的新闻版面排版,新闻推荐等提供科学的参考。主要涉及到FP-growth、FP-tree等算法的综合运用
04 机器学习实战案例-2:、基于聚类(Kmeans)算法实现的客户价值分析系统 客户价值分析其实就是一个客户分群问题。是以客户为中心,先从客户需求出发,搞清楚客户需要什么,他们有怎么样的一个特征,他们需要什么样的产品,然后我们再回头设计出相应的产品,以满足客户的需求。
之所以要进行客户价值分析,就是商家为了避免闭门造车,主观臆断客户需要什么什么什么。随着数据量不断增大,传统的拍脑袋做决定的决策方式,变得越来越过时了。
那具体到我们这个项目呢,我们这个项目的背景是某电信运营商,该运营商需要以客户为中心,按照客户的需求,在对客户特点的了解上,推出不同的资费套餐和营销手段,以便更好地留住现有客户,吸引新的客户。
1、项目背景
2、 FP-growth算法的原理
3、Python代码实现
04 机器学习实战案例-2:、基于聚类(Kmeans)算法实现的客户价值分析系统

1天

客户价值分析其实就是一个客户分群问题。是以客户为中心,先从客户需求出发,搞清楚客户需要什么,他们有怎么样的一个特征,他们需要什么样的产品,然后我们再回头设计出相应的产品,以满足客户的需求。
之所以要进行客户价值分析,就是商家为了避免闭门造车,主观臆断客户需要什么什么什么。随着数据量不断增大,传统的拍脑袋做决定的决策方式,变得越来越过时了。
那具体到我们这个项目呢,我们这个项目的背景是某电信运营商,该运营商需要以客户为中心,按照客户的需求,在对客户特点的了解上,推出不同的资费套餐和营销手段,以便更好地留住现有客户,吸引新的客户。
1、项目背景
2、聚类模型算法简介
3、kmeans算法原理
4、kmeans算法Python代码实现
5、kmeans算法优化
05 机器学习实战案例-3:、基于LVD、贝叶斯模型算法实现的电商行业商品评论与情感分析案例实战

1天

现在大家进行网购,在购物之前呢,肯定会看下相关商品的评论,看下好评和差评,然后再综合衡量,最后才会决定是否购买相关的商品。甚至有不少的消费者已经不看商品详情描述页了,而是直接看评论,然后决定是否下单。商品评论已经是用户决策最为核心的考量因素了。
那么生产商或者卖家呢,其实他们也会根据评论里讲到的一些要点,比如说有哪些优点,可以继续发扬;又有哪些缺点,今后可以做继续的改善。
那么我们这次的课程,也是对商品好评和差评的情况,做一个分析。并提取出关键词来,帮助我们快速地了解一件商品的好和不好的地方。课程涉及的经典算法是:LDA及贝叶斯模型
1、LDA主题模型
2、SVD算法
3、LDA模型调优
4、贝叶斯模型
下载全部课程表

上海市普陀区中山北路3553号4楼

Copyright © 2008-2018 上海容大教育培训有限公司 备案号:沪ICP备12015846号-1

账号登录
手机号快捷登录
还没有账号, 现在 注册
资料下载

Python数据分析师 全栈开发工程师 课程大纲 .pdf