hadoop（1）：centos 安装 hadoop hive

1，关于hive

Hive是一个基于Hadoop的数据仓库平台。通过hive，我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言：HQL，能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

Hive是Facebook 2008年8月刚开源的一个数据仓库框架，其系统目标与 Pig 有相似之处，但它有一些Pig目前还不支持的机制，，比如：更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

本文的原文连接是: 未经博主允许不得转载。

网站首页：

2，安装

首先要安装hadoop https://hadoop.apache.org/ 直接下载tar.gz解压缩。最新版本2.7.1。

tar -zxvf hadoop-mv hadoop-2.7.1 hadoop

下载地址：直接解压缩就可以。最新版本 1.2.1。

tar tar.gz mv apacheapache-hive

设置环境变量：

export JAVA_HOME=/usr/java/defaultexport CLASS_PATH=$JAVA_HOME/libexport PATH=$JAVA_HOME/bin:$PATHexport HADOOP_HOME=/data/hadoopexport PATH=$HADOOP_HOME/bin:$PATHexport HIVE_HOME=/data/apache-hiveexport PATH=$HIVE_HOME/bin:$PATH3，启动hive，创建表

hive 官网：https://cwiki.apache.org/confluence/display/Hive/Home 配置环境变量就可以启动hive了，这个hive是一个本机环境，只依赖hadoop，只有有hadoop环境变量就行。

创建数据表，和mysql非常类似参考： https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

# hiveLogging initialized using configuration in jar:file:/data/apache-hive/lib/hive-common-1.2.1.jar!/hive-log4j.propertieshive> show databases;OKdefaultTime taken: 1.284 seconds, Fetched: 1 row(s)hive> use default;OKTime taken: 0.064 secondshive> show tables;OKTime taken: 0.051 secondshive> CREATE TABLE user_info(uid INT,name STRING)> PARTITIONED BY (create_date STRING)> ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’> STORED AS TEXTFILE;OKTime taken: 0.09 seconds

使用apache hive 创建数据库表的时候有可能会遇到问题：

FAILED: ParseException column specification

说明关键字冲突了。不能使用date，user等关键字。

指定存储格式为 Sequencefile 时，把txt格式的数据导入表中，hive 会报文件格式错

Failed with exception Wrong file format. Please check the file’s format.FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask4，导入数据

hive不支持用insert语句一条一条的进行插入操作，也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。因为hadoop是这个特性。

创建两个数据文件：

/data/user_info_data1.txt 121,zhangsan1 122,zhangsan2 123,zhangsan3 /data/user_info_data2.txt 124,zhangsan4 125,zhangsan5 126,zhangsan6

数据导入：分别将数据导入到两个分区中。

‘/user_info to table default.user_info partition .user_info{create_date=20150801} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0]OKTime taken: 0.762 seconds’/user_info to table default.user_info partition .user_info{create_date=20150802} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0]OKTime taken: 0.403 seconds5，查询

直接查询即可。

hive> select * from user_info where create_date = 20150801;OKzhangsan320150801Time taken: 0.099 seconds, Fetched: 3 row(s)

更多查询函数参考： hive 函数大全和用户自定义函数 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

6，总结

本文的原文连接是: 未经博主允许不得转载。

hive可以非常方便的进行离线数据统计，因为数据一旦录入是不能进行修改的。 hive的语法和mysql非常相似，可以充分利用hadoop进行数据统计，可以进行多次join而不用担心效率问题。目前，有一个小问题没有解决，是数据导入必须使用textfile，不是压缩文件类型。这个问题的具体描述参考： @126/blog/static/6797953420128118227663/

有希望在的地方，痛苦也成欢乐

相关文章：

你感兴趣的文章：

标签云：