HDFS配置:
客户端中的配置参数可以覆盖服务端的参数。
例如:副本数,切块大小
HDFS文件存储:
HDFS扩展:
分布式任务传统方式:
hadoop对分布式抽象
mapreduce
mapper: 一次读取一行数据 输出一组keyValue mapper个数等于block块数shuffle: 合并数据reduce: 业务逻辑处理
hadoop序列化机制:
hadoop中目前的序列化机制是writable,后续版本中会替换为avro
mapreduce任务提交方式
jar包,hadoop jar wordcount.jar Count mr会被提交到集群,,属于集群的运行方式local模式 在eclipse里直接运行main方法eclipse hadoop 插件
mapreduce任务执行流程
原来和文字沾上边的孩子从来都是不快乐的,