博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop的MR读取外部资源的方案
阅读量:4110 次
发布时间:2019-05-25

本文共 374 字,大约阅读时间需要 1 分钟。

背景:

Hadoop在执行MR job的时候有时候需要访问一些资源,比如配置,共享数据文件等,那么实现的方案有如下几种:

第一种:基于三方数据源

1.存储在sql或者nosql(包括自身的hdfs)中然后在job的m或者r时根据需要读取相应的资源2.存储在某网络处,基于tcp方式在需要的时候获取

第二种通过自身机制

1.org.apache.hadoop.conf.Configuration进行传输1.1 conf.set(name, value) 1.2 其他conf.set*()2.DistributedCache,为分布式缓存DistributedCache.addCacheFile(uri, conf)DistributedCache.addCacheArchive(uri, conf)

 

数据量适中的情况下建议采用2,一次读多次用

转载地址:http://yiqsi.baihongyu.com/

你可能感兴趣的文章
Ribbon 学习(二):Spring Cloud Ribbon 加载配置原理
查看>>
Ribbon 学习(三):RestTemplate 请求负载流程解析
查看>>
深入理解HashMap
查看>>
XML生成(一):DOM生成XML
查看>>
XML生成(三):JDOM生成
查看>>
Ubuntu Could not open lock file /var/lib/dpkg/lock - open (13:Permission denied)
查看>>
collect2: ld returned 1 exit status
查看>>
C#入门
查看>>
查找最大值最小值
查看>>
C#中ColorDialog需点两次确定才会退出的问题
查看>>
数据库
查看>>
nginx反代 499 502 bad gateway 和timeout
查看>>
linux虚拟机安装tar.gz版jdk步骤详解
查看>>
python猜拳游戏
查看>>
python实现100以内自然数之和,偶数之和
查看>>
python数字逆序输出及多个print输出在同一行
查看>>
ESP8266 WIFI数传 Pixhaw折腾笔记
查看>>
苏宁产品经理面经
查看>>
百度产品经理群面
查看>>
去哪儿一面+平安科技二面+hr面+贝贝一面+二面产品面经
查看>>