- 大数据课程介绍及体系
- 大数据时代背景
- Hadoop生态介绍
大数据课程介绍及体系
大数据科学体系
一个目标:从数据中提取出有价值信息,以及支撑商业活动、科学研究及社会活动
三大范畴:数据统计学、行业经验、工具支撑
六大分析过程:业务理解、数据理解、数据准备、模型建立、模型评估、部署应用
七大数据流程:数据采集、数据建模、数据存储、数据处理、数据分析、数据可视化、数据应用
九大知识体系:统计学、数据平台、大数据、数据处理开发、编程语言、数据分析、数据挖掘、机器学习、人工智能、数据可视化
大数据时代背景
大数据定义
大数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到抓取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯
大数据产生过程:
萌芽期
1990~2000
运营式系统
收银系统、办公系统
成熟期
2000~2010
用户原创内容
互联网的发展:微博、微信等
大规模应用
2010年至今
感知式系统
物联网的迅速发展:摄像头、温度监控等
大数据技术支撑
- 存储:MB、GB、TB、PB
- 计算:资源、服务共享、虚拟化
- 网络:带宽、千兆万兆网
大数据4V特征
Volume:大量化
Variety:多样化(其中以非结构化数据居多)
Velocity:快速化
Value:价值密度低
应用场景:
交通优化、边防、研究改进、物流规划、热点跟踪、环境监控、社交网络意识、就业分析、欺诈检测、经济预测
大数据面临的挑战:
- 存储(HDFS)
- 分析(Hive、MR)
- 管理
大数据给传统数据存储带来的问题
- 数据的存储能力
- 数据量大
- 数据种类多
- 数据的处理能力
- 非结构化数据
- 处理时间
- 扩展性与容错性
- 在线扩容
- 容错与高可用
- 成本
- 软硬件成本
- 管理维护成本
Hadoop生态的大数据解决方案
解决方案
Hadoop生态体系
数据采集、数据存储、资源管理、计算框架、处理分析
大数据开发运维技术场景简图
hadoop优势
高可靠、大存储(高并发、保证数据正确完整、满足高容量数据存储)
平滑扩展、线性扩展
(具备线性扩展能力,在不停业务的情况下实现节点线性扩容,且在扩容后自动实现数据的重新分步)
高效性(并行,加快任务的处理速度)
高容错(自动地将失败的任务进行分配)
学习Hadoop前应掌握的技能
- 虚拟机、Linux系统
- 网络、SSH、防火墙
- JDK、系统参数、Java
- MySQL DDL DML
- hadoop环境变量
Hadoop定义
Apache开源软件基金会开发的
- 运行与大规模普通服务器上的
- 用于大数据存储、计算、分析的
- 分布式存储系统和分布式框架
Hadoop之父:Doug Cutting
Hadoop发展史:
Hadoop生态发展史: