大数据提取价值信息技术实现方案

大数据提取价值信息技术实现方案

分5步:

1、通过FTP采集文件

2、把文件入到HDFS系统

3、使用HIVE从HDFS中选择数据

4、使用DataStage或Infomatica把数据入库

5、入库到Sybase IQ数据库

注意事项:

1、不一定用ftp采集文件,反正只要把海量文件采集过来即可;

2、采集的源文件一定是海量的,可以文件数海量,也可以文件里的内容海量,要不然就不叫大数据了;

3、这里面主要用到了hadoop的hdfs,没有用到mapreduce;

4、mapreduce其实是hive帮你实现了;

5、使用hive是因为只要会sql的人都会使用hive,学习成本低,,一般企业特别是老企业会sql的开发人员一大把;

6、DataStage是ibm的,觉得不好用,所以现在用Infomatica替换;

7、ibm的东西都是卖的很便宜,但维护费很贵,他不开源所以你不得不找他来帮忙维护,所以我一直很讨厌它;

8、ibm的东西不光维护贵,而且扩节点也不便宜,现在公司部分主机已转向HP;

9、不一定选择Sybase IQ,所以公司选择了也没啥大问题,查询的速度挺快,更新和插入暂时也不觉得很慢,它是基于列存储的而且价格比oracle便宜非常非常多。

应用场景:

比如你的网站有大量的用户搜索信息,可以把这信息文件入到hdfs,然后通过select出每个关键字的查找次数,终于把这个关键词和次数入库到IQ。那么,你直接看IQ,就可以知道最近大家搜索的最多最关注的是什么词语了。

本文出自:ouyida3的csdn

2015.3.18

只能昏昏沉沉地沿着青草和泥土的气息前进。

大数据提取价值信息技术实现方案

相关文章:

你感兴趣的文章:

标签云: