失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > HDFS--Hadoop分布式文件系统

HDFS--Hadoop分布式文件系统

时间:2022-10-29 11:13:30

相关推荐

HDFS--Hadoop分布式文件系统

HDFS是什么

HDFS设计特性和概念

HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。

HDFS具有如下设计特性:

(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都有PB级别的HDFS,百度应该有国内最大规模的HDFS,几十PB。

(2)流式数据访问,一次写入,多次读取,所处理的场景中,读取整个数据的延迟比读取第一条记录的时间延迟重要。

(3)运行在普通商用PC即可,比如3万级别的普通PC服务器(16-32G ECC内存,8-16核CPU)。

(4)是为高数据吞吐量优化的,以高时间延迟为代价。

(5)推荐处理大量小文件,由于namenode将文件系统的元数据存储在内存中,故文件总数受制于namenode节点内存。根据经验,一个文件/目录/block大约占用150自己,所以亿级别文件还可以,10亿级别内存就不够了。

(6)对于写入,只能有一个写入操作,也只能把内容添加在文件的末尾。

如果觉得《HDFS--Hadoop分布式文件系统》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。