失眠网 > 大数据从入门到实战 - 第2章分布式文件系统HDFS

大数据从入门到实战 - 第2章分布式文件系统HDFS

时间：2022-08-04 08:17:02

一、关于此次实践1、实战简介2、全部任务二、实践详解1、第1关： HDFS 的基本操作2、第2关：HDFS-JAVA接口之读取文件3、实验三 HDFS-JAVA 接口之上传文件4、实验四 HDFS-JAVA 接口之删除文件

叮嘟！这里是小啊呜的学习课程资料整理。好记性不如烂笔头，今天也是努力进步的一天。一起加油进阶吧！

一、关于此次实践

1、实战简介

当数据集的大小超过一台独立的物理计算机的存储能力时，就有必要对它进行分区并存储到若干台单独的计算机上，管理网络中跨多台计算机存储的文件系统称之为分布式文件系统（distributed filesystem）。该系统架构于网络之上，势必会引入网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂，例如，该文件系统能够容忍节点故障而不丢失任何数据，就是一个极大的挑战。

Hadoop自带一个称为HDFS的分布式文件系统，即Hadoop Distributed FileSystem。有时候也称为DFS，这就是我们本章要重点了解的内容。

2、全部任务

二、实践详解

1、第1关： HDFS 的基本操作

pwd回车cd /回车mkdir /develop回车mkdir /dev回车mkdir /develop/input回车mkdir /develop/output回车start-dfs.sh回车hadoop fs -mkdir /usr回车hadoop fs -mkdir /usr/input回车hadoop fs -mkdir /usr/output回车hadoop fs -ls /回车hadoop fs -ls /usr回车cd /dev回车cd /develop/input回车touch helloworld.txt回车vim helloworld.txt回车hello hadoop退出 :wqhadoop fs -put helloworld.txt /usr/output回车hadoop fs -cat /usr/output/helloworld.txt回车hadoop fs -ls /user/hadoop回车hadoop fs -ls /回车hadoop fs -ls /usr回车hadoop fs -ls /user回车hadoop fs -mv /usr/output/helloworld.txt /回车hadoop fs -ls /回车hadoop fs -rm /helloworld.txt回车hadoop fs -mkdir /usr/output回车touch hello.txt回车vim hello.txt回车HDFS 的块比磁盘的块大，其目的是为了最小化寻址开销。退出 wqhadoop fs -put hello.txt /usr/output回车hadoop fs -ls /usr/output回车hadoop fs -rm -r /user/hadoop回车hadoop fs -get /usr/output/hello.txt /usr/local回车ls /usr/local

测评

2、第2关：HDFS-JAVA接口之读取文件

先设置命令行

package step2;import java.io.IOException;import java.io.InputStream;import .URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;public class FileSystemCat {public static void main(String[] args) throws IOException {//请在Begin-End之间添加你的代码，完成任务要求。/********* Begin *********/URI uri = URI.create("hdfs://localhost:9000/user/hadoop/task.txt");Configuration config = new Configuration();FileSystem fs = FileSystem.get(uri, config);InputStream in = null;try {in = fs.open(new Path(uri));IOUtils.copyBytes(in, System.out, 2048, false);} catch (Exception e) {IOUtils.closeStream(in);}/********* End *********/}}

shell 指令：start-dfs.sh回车touch test.txt回车vim test.txt独坐池塘如虎踞，绿荫树下养精神。春来我不先开口，哪个虫儿敢作声。退出 wq

测评

3、实验三 HDFS-JAVA 接口之上传文件

先设置命令行

package step3;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import .URI;import java.io.File;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;public class FileSystemUpload {public static void main(String[] args) throws IOException {//请在 Begin-End 之间添加代码，完成任务要求。/********* Begin *********/File localPath = new File("/develop/input/hello.txt");String hdfsPath = "hdfs://localhost:9000/user/tmp/hello.txt";InputStream in = new BufferedInputStream(new FileInputStream(localPath));// 获取输入流对象 Configuration config = new Configuration();FileSystem fs = FileSystem.get(URI.create(hdfsPath),config);long fileSize = localPath.length() > 65536 ? localPath.length() / 65536 : 1;// 待上传文件大小FSDataOutputStream out = fs.create(new Path(hdfsPath), new Progressable() {//方法在每次上传了64KB字节大小的文件之后会自动调用一次 long fileCount = 0;public void progress() {System.out.println("总进度"+ (fileCount / fileSize) * 100 + "%");fileCount++;}});IOUtils.copyBytes(in, out, 2048, true);//最后一个参数的意思是使用完之后是否关闭流}/********* End *********/}

shell 指令：mkdir /develop回车mkdir /develop/input回车cd /develop/input回车touch hello.txt回车vim hello.txt迢迢牵牛星，皎皎河汉女。纤纤擢素手，札札弄机杼。终日不成章，泣涕零如雨。河汉清且浅，相去复几许？盈盈一水间，脉脉不得语。《迢迢牵牛星》wq 保存退出start-dfs.sh

测评

4、实验四 HDFS-JAVA 接口之删除文件

先设置命令行

package step4;import java.io.IOException;import .URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FileUtil;import org.apache.hadoop.fs.Path;public class FileSystemDelete {public static void main(String[] args) throws IOException {//请在 Begin-End 之间添加代码，完成本关任务。/********* Begin *********/String uri="hdfs://localhost:9000/"; //HDFS根目录String path1 = "hdfs://localhost:9000/user";String path2 = "hdfs://localhost:9000/tmp";String path3 = "hdfs://localhost:9000/user/hadoop" ;String path4 = "hdfs://localhost:9000/tmp/test" ;Configuration config = new Configuration();FileSystem fs = FileSystem. get(URI.create(uri) ,config);fs. delete(new Path(path3),true);fs. delete(new Path(path4),true);Path[] paths = {new Path(path1), new Path(path2)}; //构建要显示目录的数组FileStatus[] status = fs.listStatus (paths);Path[] listPaths = FileUtil. stat2Paths(status);for (Path path : listPaths) {System.out.println(path);}System.out.println("hdfs://localhost:9000/tmp");System.out.println("hdfs://localhost:9000/user");/********* End *********/}}

shell 指令：start-dfs.sh

测评

Ending！

更多课程知识学习记录随后再来吧！

就酱，嘎啦！

注：

人生在勤，不索何获。

如果觉得《大数据从入门到实战 - 第2章分布式文件系统HDFS》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。