Hadoop

Author

Published

2022/05/11

Updated

2022/05/11

大数据分布式

Article Outline

简介

Hadoop是一个开源框架，允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器，每个都提供本地计算和存储

适合

大规模数据
流式数据（写一次，读多次）
商用硬件（一般硬件）

不适合

低延时的数据访问
大量的小文件
频繁修改文件

Hadoop架构

HDFS: 分布式文件存储
YARN: 分布式资源管理
MapReduce: 分布式计算
Others: 利用YARN的资源管理功能实现其他的数据处理方式

Hadoop集群可以运行的3个模式

单机模式

在单机模式(standalone)中不会存在守护线程，所有东西都运行在一个JVM上。使用的时本地文件系统。单机模式适用于开发过程中运行MapReduce程序，也是最少使用的一个模式

伪分布式模式

伪分布式(Pseudo)适用于开发和测试环境，在这个模式中，所有守护线程都运行在同一台机器上

全分布式模式

全分布式模式常用于生产环境。使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机上。存在Namenode运行的主机、Datanode运行的主机以及task tracker运行的主机。在分布式环境下，主从节点会分开