0%

hadoop时代背景

  • 大数据课程介绍及体系
  • 大数据时代背景
  • Hadoop生态介绍

大数据课程介绍及体系

大数据科学体系

  • 一个目标:从数据中提取出有价值信息,以及支撑商业活动、科学研究及社会活动

  • 三大范畴:数据统计学、行业经验、工具支撑

  • 六大分析过程:业务理解、数据理解、数据准备、模型建立、模型评估、部署应用

  • 七大数据流程:数据采集、数据建模、数据存储、数据处理、数据分析、数据可视化、数据应用

  • 九大知识体系:统计学、数据平台、大数据、数据处理开发、编程语言、数据分析、数据挖掘、机器学习、人工智能、数据可视化

大数据时代背景

大数据定义

大数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到抓取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯

大数据产生过程:

萌芽期

  • 1990~2000

    运营式系统

    收银系统、办公系统

成熟期

  • 2000~2010

    用户原创内容

    互联网的发展:微博、微信等

大规模应用

  • 2010年至今

    感知式系统

    物联网的迅速发展:摄像头、温度监控等

大数据技术支撑

  • 存储:MB、GB、TB、PB
  • 计算:资源、服务共享、虚拟化
  • 网络:带宽、千兆万兆网

大数据4V特征

Volume:大量化

Variety:多样化(其中以非结构化数据居多)

Velocity:快速化

Value:价值密度低

应用场景:

交通优化、边防、研究改进、物流规划、热点跟踪、环境监控、社交网络意识、就业分析、欺诈检测、经济预测

大数据面临的挑战:

  • 存储(HDFS)
  • 分析(Hive、MR)
  • 管理

大数据给传统数据存储带来的问题

  • 数据的存储能力
    • 数据量大
    • 数据种类多
  • 数据的处理能力
    • 非结构化数据
    • 处理时间
  • 扩展性与容错性
    • 在线扩容
    • 容错与高可用
  • 成本
    • 软硬件成本
    • 管理维护成本

Hadoop生态的大数据解决方案

解决方案

Hadoop生态体系

数据采集、数据存储、资源管理、计算框架、处理分析

大数据开发运维技术场景简图

hadoop优势

  • 高可靠、大存储(高并发、保证数据正确完整、满足高容量数据存储)

  • 平滑扩展、线性扩展

    (具备线性扩展能力,在不停业务的情况下实现节点线性扩容,且在扩容后自动实现数据的重新分步)

  • 高效性(并行,加快任务的处理速度)

  • 高容错(自动地将失败的任务进行分配)

学习Hadoop前应掌握的技能

  1. 虚拟机、Linux系统
  2. 网络、SSH、防火墙
  3. JDK、系统参数、Java
  4. MySQL DDL DML
  5. hadoop环境变量

Hadoop定义

Apache开源软件基金会开发的

  • 运行与大规模普通服务器上的
  • 用于大数据存储、计算、分析的
  • 分布式存储系统和分布式框架

Hadoop之父:Doug Cutting

Hadoop发展史:

Hadoop生态发展史

image-20220712163411465