Hadoop的MR读取外部资源的方案-白红宇

Hadoop的MR读取外部资源的方案

阅读量：4110 次

发布时间：2019-05-25

本文共 374 字，大约阅读时间需要 1 分钟。

背景：

Hadoop在执行MR job的时候有时候需要访问一些资源，比如配置，共享数据文件等，那么实现的方案有如下几种：

第一种：基于三方数据源

1.存储在sql或者nosql(包括自身的hdfs)中然后在job的m或者r时根据需要读取相应的资源2.存储在某网络处，基于tcp方式在需要的时候获取

第二种通过自身机制

1.org.apache.hadoop.conf.Configuration进行传输1.1 conf.set(name, value) 1.2 其他conf.set*()2.DistributedCache，为分布式缓存DistributedCache.addCacheFile(uri, conf)DistributedCache.addCacheArchive(uri, conf)

数据量适中的情况下建议采用2，一次读多次用

转载地址：http://yiqsi.baihongyu.com/

你可能感兴趣的文章

Ribbon 学习(二)：Spring Cloud Ribbon 加载配置原理

查看>>

Ribbon 学习(三)：RestTemplate 请求负载流程解析

Ubuntu Could not open lock file /var/lib/dpkg/lock - open (13:Permission denied)

查看>>

collect2: ld returned 1 exit status

C#中ColorDialog需点两次确定才会退出的问题

查看>>

数据库

查看>>

nginx反代 499 502 bad gateway 和timeout

查看>>

linux虚拟机安装tar.gz版jdk步骤详解

查看>>

python猜拳游戏

查看>>

python实现100以内自然数之和，偶数之和

查看>>

python数字逆序输出及多个print输出在同一行

查看>>

ESP8266 WIFI数传 Pixhaw折腾笔记

去哪儿一面+平安科技二面+hr面+贝贝一面+二面产品面经

查看>>