失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Hadoop灵魂框架 HDFS分布式文件系统的设计与简介

Hadoop灵魂框架 HDFS分布式文件系统的设计与简介

时间:2024-07-06 05:04:34

相关推荐

Hadoop灵魂框架 HDFS分布式文件系统的设计与简介

随着大数据时代的来临,数据集的量也呈现出爆发式的增长。普通的单台物理计算机根本无法存储如此海量的数据,因此就需要将数据分割然后存储在多台服务器上,这种系统就称之为分布式文件系统,而Hadoop中自带的文件系统就叫HDFS。

硬件廉价

HDFS集群使用的硬件都是非常廉价的,但是正是由于廉价的硬件。其节点可能会经常发生故障,但是节点的数量非常多,因此在某个节点发生故障的时候,用户不太容易察觉。总的来说相较于昂贵并且故障率低的硬件而言,这种廉价的集群方式性价比会高很多。

海量数据

HDFS中存储的文件通常都是MB级别的,通常一个文件在几百MB左右。但是由于文件数量过多,通常都会达到TB甚至PB级别,单个硬件是无法达到这种级别的。

小文件不宜太多

虽然HDFS的主要用途之一是为了存储海量的数据,但是由于其分布式的特点,每个文件、目录和数据块都有元数据,这些元数据存储着他们在HDFS中的相关信息。

每个元数据大约占用150字节,因此可以通过这个指标来衡量所有文件的元数据所占用的内存。小文件太多将会极大的降低存储能力。但是小于一个数据块大小的文件不会占用一整个数据块的空间,关于数据块的概念之后会做详解。

只能单用户写入

HDFS中存储的数据多数情况下都是日志等文件,通常是被拿来做分析和统计的,因此被设计为“一次写入,多次读取”的模式。在分布式系统中,要实现多人同时写的代价过于沉重,因此只能由一个用户来执行写操作。

不支持修改

由于HDFS是分布式文件系统,因此其写入和修改付出的代价是相等的。并且HDFS本身也是为了存储海量的输出稳定的数据,这类数据通常不会修改,所以HDFS也就没有支持这一操作。

响应延迟高

HDFS的数据会从各个节点读取,因此具有极高的吞吐量。但是为了做到这点,每次读数据都需要初始化,因此很多时间被耽误在启动上了,所以延迟高。

流式数据访问

由于HDFS中的数据几乎都是会被多次读取的,因此将数据设计为流的方式读取是最为高效的。虽然这样会降低读取第一条数据的速度,但是使用者需要的是读取整个数据集。

想学习更多大数据知识,请记得关注小鸟。

如果觉得《Hadoop灵魂框架 HDFS分布式文件系统的设计与简介》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。