Hadoop DistributedCache使用案例

背景

公司数据处理具有两个计算框架,单机框架和MR框架。目前我已经抽象出一套API interface, 供业务计算开发人员使用。并分别在两个计算框架下实现了API的执行调度。应用开发人员有时间需要通过上传override的配置文件,来调整业务计算参数。单机框架易于实现,但在MR框架里,,需要解决override的配置文件的分发问题。

实现

1. 通过命令行传入配置文件路径;

2. MR job client端读入本地配置文件,并加入DistributedCache;并把命令行参数不加修改,附加到MR child JVM启动参数数组中。

3. MR child JVM启动后检查启动参数, 发现有配置文件,且配置文件不存在,则将配置文件路径替换为DistributedCache对应的本地路径。

4. child JVM job读入替换后的配置文件,并应用到mr job中,实现计算参数的修改。

参考

临行之前,面对太多的疑问和不解:

Hadoop DistributedCache使用案例

相关文章:

你感兴趣的文章:

标签云: