

数据分析知识补充:Hadoop、YARN、Spark、Hive
source link: https://jyzhu.top/2020/12/11/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E7%9F%A5%E8%AF%86%E8%A1%A5%E5%85%85%EF%BC%9AHadoop%E3%80%81YARN%E3%80%81Spark%E3%80%81Hive/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

数据分析知识补充:Hadoop、YARN、Spark、Hive
发表于
2020-12-11 更新于 2020-12-12 分类于 Computer Notes
Hadoop
概念
HDFS文件系统+MapReduce数据处理
假如有1T的数据,我想一行一行正则过滤出想要的内容。就需要
- 把数据导入HDFS
- 定义map方式,也就是把key设置成行数,把value设置为每行内容
- 定义reduce:通过正则方式进行匹配,正确的内容通过reduce聚合起来返回
那么Hadoop就会把这个工作自动分配给你已有的n个计算结点去完成
YARN是MapReduce团队对原本框架的重构,可以理解成MapReduce v2
Spark是微软在Hadoop基础上改的,主要是解决了多余的中间结果读写问题,而是用cache来存(貌似?);并且还可以同时包含多个map和reduce。spark用起来比mr方便点
另外spark适用于实时计算,但是Hadoop不大适合,适合离线计算;这肯定也是因为那个鸡肋的中间结果读写
Hive是包在Hadoop外面的壳,Facebook搞的,把MapReduce程序包装成了类SQL,可能不会代码的人用起来方便点吧
HDFS基本原理
原理简单但是……估计操作更简单?
- nameNode负责维护数据block对应的dataNote映射信息
- DataNode当然就存具体block了
- 一个block存在3个区域中,这3个区域还要分布在2个主机上,防止数据挂掉(不知道这数据是默认的还是?)
- 原始的数据是会被分成小的block的。比如一个100m的数据可能被分成66m的block1和36m的block2
- block被写入HDFS的时候,是流式的,即一个block被分为更小的块,第一块写进host1,然后host1把它写给host2,这时候第二块又写进host1,同时host2写完了再把刚刚的第一块写给host3……
MapReduce基本原理
用户自己定义好map和reduce两个函数。
- map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。
- reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)。
例:统计词频:
map(String key, String value):
// key: document name
// value: document contents
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
欢迎关注我的其它发布渠道
Recommend
-
14
本文源码: GitHub·点这里 || GitEE·点这里 一、Yarn基本结构 Hadoop三大核心组件:...
-
14
Hadoop YARN日志查看方式 Original...
-
10
How To Use Hive With Out Hadoop
-
9
Hadoop yarn集群安装 作者: wencst 分类: 架构设计 发布时间: 2018-12-17 11:17 阅读: 1,777 次 ...
-
8
【spark, Hive, Hadoop, yarn】汇总 2018年03月27日 Author: Guofei 文章归类: 1-1-算法平台 ,文章编号: 153 版权声明:本文作者是郭飞。转载随...
-
6
Hadoop 生态里,为什么 Hive 活下来了? 2021 年 10 月 08 日
-
8
Apache Hadoop Yarn与Kubernetes比较选择 Kubernetes用于将 Docker 容器内核扩展为一个平台。Kubernetes 开发采用自下而上的方法。它在指定每个容器/pod 资源需求方面有很好的优化,但它缺乏一个有效的全局调度程序,可以将资源划分为逻辑分组。Kuberne...
-
13
Hadoop's NameNode and JobTracker expose interesting metrics and statistics over the JMX. Hive seems not to expose anything intersting but it still might be useful to monitor its JVM or do simpler profiling/sampling on it. Let's see how to enable...
-
8
搭建Hadoop Yarn环境 (ARM) Aug 15 2020 ...
-
6
This article was published as a part of the Data Science Blogathon. Introduction
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK