频道导航

hadoop之HDFS概述

2020-12-05 Hadoop 前端之家

前端之家收集整理的这篇文章主要介绍了hadoop之HDFS概述，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

HDFS的定义？

Hadoop分布式文件管理系统。旨在对不同系统上的文件进行统一的管理。它是一个文件系统，用于存储文件，通过目录树来定位文件，其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

使用场景？

适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析，并不适合用来做网盘应用。

它的优点？

（1）高容错性

数据自动保存多个副本，它通过增加副本的形式，提高容错性
某一个副本丢失以后，它可以自动恢复

（2）适合处理大数据

数据规模：能够处理数据规模达到GB、TB甚至是PB级别的数据
文件规模：能够处理百万规模以上的文件数据

（3）可构建在廉价机器上，通过多副本机制，提高可靠性

它的缺点？

（1）不适合低延时数据访问，比如毫秒级的存储数据，是做不到的

（2）无法高效的对大量小文件进行存储

存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息，这样实不可取的，因为NameNode的内存总是有限的
小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标

（3）不支持并发写入，文件的随机修改

一个文件只能有一个写，不允许多个线程同时写
仅支持数据的追加，不支持数据的随机修改

HDFS的组成架构？

HDFS文件块的大小？

块设置的不能太小，也不能太大？

（1） HDFS块设置得太小，会增加寻址时间，程序一直寻找块的开始位置

（2）如果设置得太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间，导致程序在处理这块数据时，会非常慢。

HDFS块的大小的设置主要取决于磁盘传输的速率。

原文链接：/hadoop/991122.html

上一篇：hadoop之运行官方实例一--grep 下一篇：hadoop之hadoop目录结构

猜你在找的Hadoop相关文章

不可不知的资源管理调度器Hadoop Yarn

Yarn（Yet Another Resource Negotiator）是一个资源调度平台，负责为运算程序如Spark、Ma...

作者：前端之家时间：2020-12-11

详解MapReduce（Spark和MapReduce对比铺垫篇）

MapReduce是Hadoop核心三剑客之一，设计思想来源于谷歌三篇论文之一的《分布式计算模型》。...

作者：前端之家时间：2020-12-11

关于HDFS应知应会的N个问题 | 技术点

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如...

作者：前端之家时间：2020-12-11

必须掌握的分布式文件存储系统—HDFS

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如...

作者：前端之家时间：2020-12-11

Hadoop调优 | NameNode主备宕机引发的思考

作者：前端之家时间：2020-12-11

如何有效恢复误删的HDFS文件

HDFS是大数据领域比较知名的分布式存储系统，作为大数据相关从业人员，每天处理HDFS上的文...

作者：前端之家时间：2020-12-11

hadoop之Name node is in safe mode

关闭虚拟机之后重启hadoop，想要用删除之前在hdfs运行的output文件，显示： hadoop之Name ...

作者：前端之家时间：2020-12-05

linux版本的jdk1.8+hadoop2.9.2下载地址

hadoop：链接：https://pan.baidu.com/s/14AhhPYP8933tn-EfSX-i8Q 提取码：e90m...

作者：前端之家时间：2020-12-05

hadoop之运行官方实例二--WordCount

1、在hadoop-2.9.2目录下新建一个wcinput：mkdir wcinput 2、在wcinput下新建一个文件：to...

作者：前端之家时间：2020-12-05

hadoop完全分布式之rsync

rsync与scp的区别？ rsync主要用于备份和镜像，具有速度快、避免复制相同内容和支持符号链...

作者：前端之家时间：2020-12-05

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章