数据仓库,数据仓库的建立步骤

数据仓库,数据仓库的建立步骤详细介绍

本文目录一览：数据仓库的功能包括

数据仓库的功能包括：ETL设计，包括数据的抽取同步、数据清洗、数据转换；数据分层，一般会划分为ODS层、CM层、ML层；数据初步建模。
数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库之父比尔·恩门（Bill Inmon）在1991年出版的“Building the Data Warehouse”（《建立数据仓库》）一书中所提出的定义被广泛接受——数据仓库是一个面向主题的（Subject Oriented）、集成的、相对稳定的、反映历史变化（Time Variant）的数据集合，用于支持管理决策。
数据仓库的基本功能
ETL设计：数据的抽取同步、数据清洗、数据转换。涉及关系型数据库（mysql、mariadb、oracle等），文档型数据库（mongodb、elasticsearch等）。
数据分层：一般划分为ODS层、CM层、ML层。ODS层表示未进行加工的数据。CM层表示清洗合并层的数据。
数据初步建模：对应数据分层ML层，一般采用关系模型（雪花模型）或星型模型，形成宽表对外提供数据支持。
涉及技术：HDFS、HIVE、HBASE、MR、SPARK、YARN等。

数据仓库是什么？

数据仓库的含义,数据仓库和数据库的区别？

.理解数据仓库的含义，数据仓库和数据库的区别。
答：含义数据仓库是一个面向主题的，集成的，不可更新的，随时间不断变化的数据集合，他可以支持企业或组织的决策分析处理。
区别：1.数据库只存放在当前值，数据仓库存放历史值；
2.数据库内数据是动态变化的，只要有业务发生，数据就会被更新，而数据仓库则是静态的历史数据，只能定期添加、刷新；
3.数据库中的数据结构比较复杂，有各种结构以适合业务处理系统的需要，而数据仓库中的数据结构则相对简单；
4.数据库中数据访问频率较高，但访问量较少，而数据仓库的访问频率低但访问量却很高；
5.数据库中数据的目标是面向业务处理人员的，为业务处理人员提供信息处理的支持，而数据仓库则是面向高层管理人员的，为其提供决策支持；
6.数据库在访问数据时要求响应速度快，其响应时间一般在几秒内，而数据仓库的响应时间则可长达数几小时

数据仓库的定义

目前，大家公认的数据仓库创始人W H.Inmon在他所著的《建立数据仓库》一书中对数据仓库所下的定义;数据仓库就是面向主题的、集成的、稳定的、不同时间的数据 *** ，用以支持经营管理中的决策制定过程。
数据仓库中的数据面向主题与传统的数据库面向应用相对应。
主题是一个在较高层次将数据归类的标准，每一个主题对应一个宏观的分析领域。
数据仓库的集成特性是指在数据进入数据仓库之前，必须进行数据加丁一和集成，这是建立数据仓库的关键步骤，首先要统一原始数据中的矛盾之处，还要将原始数据结构做一个从面向应用向面向主题的转变，数据仓库的稳定性是指数据仓库反映的是历史数据的内容，而不是日常事务处理产生的数据，数据经加工和集成进入数据仓库后是很少修改或根本不修改的;数据仓库是不同时间的数据 *** ，它要求数据仓库中的数据保存时限能满足进行决策分析的需要，而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据，而且这些数据并不是最新的、专有的，而是来源于其他数据库，它要建立在一个较全面和完善的信息应用的基础上，用于支持高层决策分析，而事务处理数据库在企业的信息环境!!，承担的是日常操作性的任务，数据仓库是数据库技术的一种新的应用，到目前为止，数据仓库还是用数据库管理系统来管理其中的数据。

数据仓库有哪五层架构

数据仓库的五层架构：1、ODS数据准备层；2、DWD数据明细层；3、DW(B/S)数据汇总层；4、DM数据集市层；5、ST数据应用层。数据仓库，英文名称为DataWarehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。ST层面向用户应用和分析需求，包括前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析，面向最终结果用户；适合作OLAP、报表模型，如ROLAP,MOLAP。

数据仓库的建立步骤

数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。其建设步骤如下：

1、收集和分析业务需求；

2、建立数据模型和数据仓库的物理设计；

3、定义数据源；

4、选择数据仓库技术和平台；

5、从操作型数据库中抽取、净化、和转换数据到数据仓库；

6、选择访问和报表工具

7、选择数据库连接软件；

8、选择数据分析和数据展示软件；

9、更新数据仓库。

数据仓库的特点

数据仓库的特点是面向主题、集成、稳定、反映历史变化。
数据仓库作为现代化的产物，其特点有面向主题，操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离，而数据仓库中的数据按照一定的主题域进行组织。主题是一个抽象概念，是指用户使用数据仓库进行决策时所关心的重点方面。
并且它是集成的，面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的。
必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。同时它也是稳定的，操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询。
一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。而且它可以反映历史变化，操作型数据库主要关心当前某一个时间段内的数据。
但是数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点如开始应用数据仓库的时点到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库
数据仓库，简称DW，是为给企业所有级别的决策制定过程，提供所有类型数据支持的战略集合，被认为是商业智能的核心组件。

数据仓库与数据库有何异同？

数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。
“与时间相关”：数据库保存信息的时候，并不强调一定有时间信息。数据仓库则不同，出于决策的需要，数据仓库中的数据都要标明时间属性。决策中，时间属性很重要。同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。
“不可修改”：数据仓库中的数据并不是最新的，而是来源于其它数据源。数据仓库反映的是历史信息，并不是很多数据库处理的那种日常事务数据（有的数据库例如电信计费数据库甚至处理实时信息）。因此，数据仓库中的数据是极少或根本不修改的；当然，向数据仓库添加数据是允许的。
拓展资料：数据仓库的出现，并不是要取代数据库。数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。
目前，大部分数据仓库还是用关系数据库管理系统来管理的。可以说，数据库、数据仓库相辅相成、各有千秋。
数据库:是一种逻辑概念，用来存放数据的仓库，通过数据库软件来实现。数据库由很多表组成，表是二维的，一张表里面有很多字段。字段一字排开，对数据就一行一行的写入表中。数据库的表，在于能够用二维表现多维的关系。如：oracle、DB2、MySQL、Sybase、MSSQL Server等。
数据仓库：是数据库概念的升级。从逻辑上理解，数据库和数据仓库没有区别，都是通过数据库软件实现存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大德多。数据仓库主要用于数据挖掘和数据分析，辅助领导做决策。
再看看应用的不同
业务数据库是面向操作的，主要服务于业务产品和开发。而数据仓库则是面向分析的，主要服务于分析人员。评价数据仓库做的好不好，就看分析师用得爽不爽。因此，数据仓库从产品设计开始，就一直是站在分析师的立场上考虑的，致力于解决使用业务数据进行分析带来的种种弊端。更多细节查看??1，里面提到了一下ETL,在下面的块里面简单介绍一下。
ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。
（作者来源不明）的阐述
数据仓库解决的问题
结构清晰，简单
数据仓库不需要遵循数据库设计范式，因此在数据模型的设计上有很大自由。
数据模型一般采用星型模型，表分为事实表和维度表两类。
其中事实表位于星星的中心，存储能描述业务状况的各种度量数据。
维度表围绕在事实表的周围，通过外键一对一的形式关联，提供了看待业务状况的不同角度。
星型模型使用方便，易于理解，聚焦于业务。
当我们做数据分析时，首先选定主题，比如分析用户注册情况；其次根据选定的主题找到对应的业务数据源，然后观察业务数据源提供了哪些分析角度，最后根据数据进行分析。
星形模型非常适合这个思路，并且大大简化了这个过程。下面以我们目前的模型来举例。
可复用，易拓展
星型模型不仅便于理解和使用，而且维度表还便于重复使用，维度表中字段易于拓展。
比如日期维度表，不仅可以被不同的事实表是使用，在同一张事实表里也可被复用，比如一个事实表里不同的操作日期，一个商品的订单有创建日期、付款日期、发货日期、退款时间、收货时间等等。
维度表中字段易于扩展，只要保证维度数据的主键不变，直接在维度表里添加新的字段内容即可，添加的新内容只会影响到维度表而已。而且，维度表通常数据量不大，即使完全重新加载也不需要花费多少时间。
数据干净
在ETL过程中会去掉不干净的数据，或者打上标签，使用起来更为方便。
注：由于数据清洗需要建立一定的规则，而目前的工作重心是数据建模和ETL系统设计，没有额外的时间精力设计清洗规则。为了保证数据的完整性，没有在当前的ETL中做清洗。
数据语义化／统一描述
各种状态都可以直接写成具体的值，不再需要使用操作码进行查询，SQL语句更自然，更易理解。
对于部分常用的组合状态，可以合并成一个字段来表示。比如在还款分析中，需要根据还款状态、放款状态／发货状态的组合来筛选出有效的订单，可以直接设置一个订单有效的字段，简化筛选条件。
对于同一含义的数据在不同情境下的表示，也可以统一描述了。比如对于放款日期的描述，在产品是消费贷时，指的是发货的日期，产品是现金贷时，指的是放款给用户的日期。这两个日期都是表示放款日期，就可以统一起来，同样也简化了筛选条件。
保存历史
数据仓库可通过拉链表的形式来记录业务状态变化，甚至可以设计专用的事实表来记录。只要有历史分析的需要，就可以去实现。
高速查询
数据仓库本身并不提供高速查询功能。只是由于其简单的星形结构，比业务数据库的复杂查询在速度上更有优势。如果仍然采用传统的关系型数据库来储存数据。在数据量上规模之后，同样也会遇到查询缓慢的问题。
但是，使用Hive来储存数据，再使用基于Hive构建的多维查询引擎Kylin，把星型模型下所有可能的查询方案的结果都保存起来，用空间换时间，就可以做到高速查询，对大规模查询的耗时可以缩短到次秒级，大大提高工作效率。

数据仓库的含义是什么？数据仓库和数据库的区别是什么？

一直想整理一下这块内容，既然是漫谈，就想起什么说什么吧。我一直是在互联网行业，就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途：
整合公司所有业务数据，建立统一的数据中心；
提供各种报表，有给高层的，有给各个业务的；
为网站运营提供运营上的数据支持，就是通过数据，让运营及时了解网站和产品的运营效果；
为各个业务提供线上或线下的数据支持，成为公司统一的数据交换与提供平台；
分析用户行为数据，通过数据挖掘来降低投入成本，提高投入效果；比如广告定向精准投放、用户个性化推荐等；
开发数据产品，直接或间接为公司盈利；
建设开放数据平台，开放公司数据；
。。。。。。
上面列出的内容看上去和传统行业数据仓库用途差不多，并且都要求数据仓库/数据平台有很好的稳定性、可靠性；但在互联网行业，除了数据量大之外，越来越多的业务要求时效性，甚至很多是要求实时的，另外，互联网行业的业务变化非常快，不可能像传统行业一样，可以使用自顶向下的方法建立数据仓库，一劳永逸，它要求新的业务很快能融入数据仓库中来，老的下线的业务，能很方便的从现有的数据仓库中下线；
其实，互联网行业的数据仓库就是所谓的敏捷数据仓库，不但要求能快速的响应数据，也要求能快速的响应业务；
建设敏捷数据仓库，除了对架构技术上的要求之外，还有一个很重要的方面，就是数据建模，如果一上来就想着建立一套能兼容所有数据和业务的数据模型，那就又回到传统数据仓库的建设上了，很难满足对业务变化的快速响应。应对这种情况，一般是先将核心的持久化的业务进行深度建模（比如：基于网站日志建立的网站统计分析模型和用户浏览轨迹模型；基于公司核心用户数据建立的用户模型），其它的业务一般都采用维度+宽表的方式来建立数据模型。这块是后话。
整体架构下面的图是我们目前使用的数据平台架构图，其实大多公司应该都差不多：
逻辑上，一般都有数据采集层、数据存储与分析层、数据共享层、数据应用层。可能叫法有所不同，本质上的角色都大同小异。
我们从下往上看：
数据采集数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些简单的清洗。
数据源的种类比较多：
网站日志：
作为互联网行业，网站日志占的份额最大，网站日志存储在多台网站日志服务器上，
一般是在每台网站日志服务器上部署flumeagent，实时的收集网站日志并存储到HDFS上；
业务数据库：
业务数据库的种类也是多种多样，有Mysql、Oracle、SqlServer等，这时候，我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具，Sqoop是一种，但是Sqoop太过繁重，而且不管数据量大小，都需要启动MapReduce来执行，而且需要Hadoop集群的每台机器都能访问业务数据库；应对此场景，淘宝开源的DataX，是一个很好的解决方案（可参考文章《异构数据源海量数据交换工具-TaobaoDataX下载和使用》），有资源的话，可以基于DataX之上做二次开发，就能非常好的解决，我们目前使用的DataHub也是。
当然，Flume通过配置与开发，也可以实时的从数据库中同步数据到HDFS
来自于Ftp/Http的数据源：
有可能一些合作伙伴提供的数据，需要通过Ftp/Http等定时获取，DataX也可以满足该需求;
其他数据源：
比如一些手工录入的数据，只需要提供一个接口或小程序，即可完成
数据存储与分析毋庸置疑，HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。
离线数据分析与计算，也就是对实时性要求不高的部分，在我看来，Hive还是首当其冲的选择，丰富的数据类型、内置函数；压缩比非常高的ORC文件存储格式；非常方便的SQL支持，使得Hive在基于结构化数据上的统计分析远远比MapReduce要高效的多，一句SQL可以完成的需求，开发MR可能需要上百行代码；
当然，使用Hadoop框架自然而然也提供了MapReduce接口，如果真的很乐意开发Java，或者对SQL不熟，那么也可以使用MapReduce来做分析与计算；Spark是这两年非常火的，经过实践，它的性能的确比MapReduce要好很多，而且和Hive、Yarn结合的越来越好，因此，必须支持使用Spark和SparkSQL来做分析和计算。因为已经有HadoopYarn，使用Spark其实是非常容易的，不用单独部署Spark集群，关于SparkOnYarn的相关文章，可参考：《SparkOnYarn系列文章》
实时计算部分，后面单独说。
数据共享这里的数据共享，其实指的是前面数据分析与计算后的结果存放的地方，其实就是关系型数据库和NOSQL数据库；
前面使用Hive、MR、Spark、SparkSQL分析和计算的结果，还是在HDFS上，但大多业务和应用不可能直接从HDFS上获取数据，那么就需要一个数据共享的地方，使得各业务和产品能方便的获取数据；和数据采集层到HDFS刚好相反，这里需要一个从HDFS将数据同步至其他目标数据源的工具，同样，DataX也可以满足。
另外，一些实时计算的结果数据可能由实时计算模块直接写入数据共享。
数据应用
业务产品
业务产品所使用的数据，已经存在于数据共享层，他们直接从数据共享层访问即可；
报表
同业务产品，报表所使用的数据，一般也是已经统计汇总好的，存放于数据共享层；
即席查询
即席查询的用户有很多，有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大，他们都有即席查询数据的需求；
这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求，需要从数据存储层直接查询。
即席查询一般是通过SQL完成，最大的难度在于响应速度上，使用Hive有点慢，目前我的解决方案是SparkSQL，它的响应速度较Hive快很多，而且能很好的与Hive兼容。
当然，你也可以使用Impala，如果不在乎平台中再多一个框架的话。
OLAP
目前，很多的OLAP工具不能很好的支持从HDFS上直接获取数据，都是通过将需要的数据同步到关系型数据库中做OLAP，但如果数据量巨大的话，关系型数据库显然不行；
这时候，需要做相应的开发，从HDFS或者HBase中获取数据，完成OLAP的功能；
比如：根据用户在界面上选择的不定的维度和指标，通过开发接口，从HBase中获取数据来展示。
其它数据接口
这种接口有通用的，有定制的。比如：一个从Redis中获取用户属性的接口是通用的，所有的业务都可以调用这个接口来获取用户属性。
实时计算现在业务对数据仓库实时性的需求越来越多，比如：实时的了解网站的整体流量；实时的获取一个广告的曝光和点击；在海量数据下，依靠传统数据库和传统实现方法基本完成不了，需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架；Storm在这块是比较成熟了，但我选择SparkStreaming，原因很简单，不想多引入一个框架到平台中，另外，SparkStreaming比Storm延时性高那么一点点，那对于我们的需要可以忽略。
我们目前使用SparkStreaming实现了实时的网站流量统计、实时的广告效果统计两块功能。
做法也很简单，由Flume在前端日志服务器上收集网站日志和广告日志，实时的发送给SparkStreaming，由SparkStreaming完成统计，将数据存储至Redis，业务通过访问Redis实时获取。
任务调度与监控在数据仓库/数据平台中，有各种各样非常多的程序和任务，比如：数据采集任务、数据同步任务、数据分析任务等；
这些任务除了定时调度，还存在非常复杂的任务依赖关系，比如：数据分析任务必须等相应的数据采集任务完成后才能开始；数据同步任务需要等数据分析任务完成后才能开始；这就需要一个非常完善的任务调度与监控系统，它作为数据仓库/数据平台的中枢，负责调度和监控所有任务的分配与运行。
前面有写过文章，《大数据平台中的任务调度与监控》,这里不再累赘。
总结在我看来架构并不是技术越多越新越好，而是在可以满足需求的情况下，越简单越稳定越好。目前在我们的数据平台中，开发更多的是关注业务，而不是技术，他们把业务和需求搞清楚了，基本上只需要做简单的SQL开发，然后配置到调度系统就可以了，如果任务异常，会收到告警。这样，可以使更多的资源专注于业务之上。

数据仓库的中间层是什么？

ODS全称为Operational Data Store，是用来存储多个数据源业务数据的系统，其数据用来支持业务流程或者输入到数据仓库中进行分析。
是操作型数据存储，是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合。ODS是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征。
扩展资料：
ODS的出现：
系统应用集成中一般对各系统中数据分为两类：操作型数据，有细节化，分散化的特点；决策型数据，有综合化，集成化的特点。
数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型，从而建立起了DB－DW的两层体系结构。但是有很多情况，DB－DW的两层体系结构并不能涵盖企业所有的数据处理要求，比如有些实时性决策问题，它要求获取数据周期不能太长，而且也需要一定程度的汇总。
信息处理的多层次要求导致了一种新的数据环境——DB－DW的中间层ODS（操作型数据存储）的出现。它像DW一样是一种面向主题，集成的数据环境，又像操作型DB一样包含着全局一致的、细节的当前的数据。这样就构成了DB－ODS－DW的关于企业数据的三层体系结构。
参考资料来源：
百度百科--操作型数据仓储

阅读更多 >>> 数据库语言sql包含哪些内容,数据库SQL语言

← 上一篇: memcache,Redis和Memcache的区别总结下一篇: 学会c语言能当黑客吗,学C语言以后能干什么？→

数据仓库,数据仓库的建立步骤

数据仓库,数据仓库的建立步骤详细介绍

相关文章：

文章数据信息: