SC@SDUSC
PIG在大数据平台中的位置与作用
题主并没有上过大数据相关的课程,拿出了一份之前扫盲的时候整理的资料来带给大家
Pig是一种高级数据语言,运行于HDFS之上,是hadoop上层的衍生架构
主要的几种大数据架构及其之间的关系如下图所示
按照不同功能进行划分,一些的大数据项目可以如下所示
由上图可以看出,Pig是一种查询平台,我的资料中还有以下的引用:
简介:Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
Pig最大的作用就是对mapreduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin,在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining),Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的UDF(user-defined functions)。
Pig官方网站>>>
Pig Latin介绍
Pig Latin是一种SQL like语言 ,其功能和SQL类似
Pig源码获取
首先访问Pig官网
点击侧边栏的Releases,下拉,找到Download标题,->Downloqd a release now!
点第一个网址/pig
进去后页面是这样的
选择下载pig-0.17.0-src.tar.gz
下载后是个压缩文件,解压后用任意编程软件打开就行了
核心代码目录
根据小组分工,本人接下来将对Pig的数据类型进行分析,代码集中于/data目录
如果觉得《【软件工程实践】Pig项目1-什么是Pig》对你有帮助,请点赞、收藏,并留下你的观点哦!