HDFS扩展和mapreduce工作过程

HDFS配置：

客户端中的配置参数可以覆盖服务端的参数。

例如：副本数，切块大小

HDFS文件存储：

HDFS扩展：

分布式任务传统方式：

hadoop对分布式抽象

mapreduce

mapper：一次读取一行数据输出一组keyValue mapper个数等于block块数shuffle：合并数据reduce：业务逻辑处理

hadoop序列化机制：

hadoop中目前的序列化机制是writable，后续版本中会替换为avro

mapreduce任务提交方式

jar包，hadoop jar wordcount.jar Count mr会被提交到集群，，属于集群的运行方式local模式在eclipse里直接运行main方法eclipse hadoop 插件

mapreduce任务执行流程

原来和文字沾上边的孩子从来都是不快乐的，