HDFS是什么
HDFS设计特性和概念
HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。
HDFS具有如下设计特性:
(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都有PB级别的HDFS,百度应该有国内最大规模的HDFS,几十PB。
(2)流式数据访问,一次写入,多次读取,所处理的场景中,读取整个数据的延迟比读取第一条记录的时间延迟重要。
(3)运行在普通商用PC即可,比如3万级别的普通PC服务器(16-32G ECC内存,8-16核CPU)。
(4)是为高数据吞吐量优化的,以高时间延迟为代价。
(5)推荐处理大量小文件,由于namenode将文件系统的元数据存储在内存中,故文件总数受制于namenode节点内存。根据经验,一个文件/目录/block大约占用150自己,所以亿级别文件还可以,10亿级别内存就不够了。
(6)对于写入,只能有一个写入操作,也只能把内容添加在文件的末尾。
如果觉得《HDFS--Hadoop分布式文件系统》对你有帮助,请点赞、收藏,并留下你的观点哦!