自己设计一个数据库,如何设计一个能够高效查询的千万级MySQL数据库?
自己设计一个数据库,如何设计一个能够高效查询的千万级MySQL数据库?详细介绍
本文目录一览: 数据库设计的基本步骤
数据库设计的基本步骤
1、需求分析阶段
进行数据库设计首先必须准确了解与分析用户需求(包括数据与处理)。需求分析是整个设计过程的基础,是最困难和最耗费时间的一步。作为“地基”的需求分析是否做得充分与准确,决定了在其上构建数据库“大厦”的速度与质量。需求分析做的不好,可能会导致整个数据库设计返工重做。
2、概念结构设计阶段
概念结构设计阶段是整个数据库设计的关键,它通过对用户需求进行综合、归纳与抽象,形成一个独立于具体数据库管理系统的概念模型。
3、逻辑结构设计阶段
逻辑结构设计是将概念结构转换为某个数据库管理系统所支持的数据模型,并对其进行优化。
4、物理设计阶段
物理结构设计师为逻辑数据模型选取一个最适合应用环境的物理结构(包括存储结构和存取方式)。
5、数据库实施阶段
在数据库实施阶段,设计人员运用数据库管理系统提供数据库语言及其宿主语言,根据逻辑设计和物理设计的结果建立数据库,编写与调试应用程序,组织数据入库,并进行测试运行。
6、数据库运行和维护阶段
数据库应用系统经过试运行后即可投入正式运行,在数据库系统运行过程中必须不断对其进行评估、调整与修改。
数据库设计的基本原则
1、一致性原则:对数据来源进行统一、系统的分析与设计,协调好各种数据源,保证数据的一致性和有效性。
2、完整性原则:数据库的完整性是指数据的正确性和相容性。要防止合法用户使用数据库时向数据库加入不合语义的数据。对输入到数据库中的数据要有审核和约束机制。
3、安全性原则:数据库的安全性是指保护数据,防止非法用户使用数据库或合法用户非法使用数据库造成数据泄露、更改或破坏。要有认证和授权机制。
4、可伸缩性与可扩展性原则:数据库结构的设计应充分考虑发展的需要、移植的需要,具有良好的扩展性、伸缩性和适度冗余。
5、规范化原则:数据库的设计应遵循规范化理论。规范化的数据库设计,可以减少数据库插入、删除、修改等操作时的异常和错误,降低数据冗余度等。
制作一个个人数据库应该用什么软件?
数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。它具有整体性、共享性。数据库软件有着整体性和共享性的特点。
数据库技术的发展,已经成为先进信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。数据库技术最初产生于20世纪60年代中期,根据数据模型的发展,可以划分为三个阶段:第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的数据库系统。
做一个数据库,需要的软件可以是:
1、Sybase。开发公司成立于1984年11月,总部设在美国加州的Emeryville(现为美国加州的Dublin市)。作为全球最大的独立软件厂商之一,Sybase公司致力于帮助企业等各种机构进行应用、内容及数据的管理和发布。Sybase的产品和专业技术服务,为企业提供集成化的解决方案和全面的应用开发平台。
2、Informix。公司在1980年成立,目的是为Unix等开放操作系统提供专业的关系型数据库产品。公司的名称Informix便是取自Information和Unix的结合。Informix第一个真正支持SQL语言的关系数据库产品是InformixSE(StandardEngine)。InformixSE是在当时的微机Unix环境下主要的数据库产品。它也是第一个被移植到Linux上的商业数据库产品。
3、MySQL是一个小型关系型数据库管理系统,开发者为瑞典MySQLAB公司。在2008年1月16号被Sun公司收购。而2009年,SUN又被Oracle收购。对于Mysql的前途,没有任何人抱乐观的态度。目前MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL作为网站数据库。
4、VisualFoxPro。原名FoxBase,最初是由美国FoxSoVisualFoxProftware公司于1988年推出的数据库产品,在DOS上运行,与xBase系列兼容。FoxPro是FoxBase的加强版,最高版本曾出过2.6。之后于1992年,FoxSoftware公司被Microsoft收购,加以发展,使其可以在Windows上运行,并且更名为VisualFoxPro。FoxPro比FoxBASE在功能和性能上又有了很大的改进,主要是引入了窗口、按纽、列表框和文本框等控件,进一步提高了系统的开发能力。
如何设计一个简单的数据库
1、需求分析阶段,准确了解与分析用户需求(包括数据与处理)是整个设计过程的基础。是最困难、最耗费时间的一步;
2、概念结构设计阶段,是整个数据库设计的关键。通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型;
3、逻辑结构设计阶段,将概念结构转换为某个DBMS所支持的数据模型,对其进行优化;
4、数据库物理设计阶段,为逻辑数据模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法);
5、数据库实施阶段,运用DBMS提供的数
如何设计一个客户信息数据库
一、引言数据库对于企业信息化的重要性是不言而喻的。数据库存储着现代企业最重要的数据,包括生产、经营、管理等各类数据,这些数据作为企业的核心信息,通过各类信息系统,为用户提供及时准确的信息,帮助用户分析,为用户提供决策依据。为提高企业的工作效率,提升企业形象,具有传统模式无法比拟的优势。其中构建合理高效的数据库,是数据库建设关键之一。如何构建合理高效的数据库是企业信息化过程要解决的问题。下面就数据库的构建谈谈自己的一些经验,希望能对大家有所帮助。
二、设计数据库之前
数据库并不是凭空想象出来的,而是根据业务部门的需要设计符合业务需求的数据库。因此在形成数据库之前需要充分了解业务需求。1.充分理解业务需求。需求分析是整个设计过程的基础,是最困难、最耗费时间的一步。在这期间通过与业务部门交流,了解用户的想法以及工作流程,通过双方多次交流,会形成初步的数据模型,当然这时的数据模型不会是最终的模型,还需要和用户进行交流,并且在以后的信息系统开发过程中还会反复修改。2.重视输入输出。在定义数据库表和字段需求(输入)时,首先应了解数据产生源和数据流程,也就是必需要知道每个数据在那儿产生,数据在那儿表现,以什么样的形式表现等等,然后根据用户提供的报表或者设计出的报表、查询和视图(输出)以决定为了支持这些输出哪些是必要的表和字段。3.创建数据字典和ER图表。ER图表和数据字典可以让任何了解数据库的人都明确如何从数据库中获得数据。ER图对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对SQL表达式的文档化来说这是完全必要的。需要注意的是,在需求分析调研过程中,并不是一帆风顺的,因为业务人员对于业务的理解不同,以及对于信息知识的缺乏,会影响需求分析的质量,为了提高质量,各方要用更多的时间交流与相互理解,业务部门需要精通业务的人员自始至终全力配合,而开发人员则尽量使用用户理解的业务术语交流,这样会避免出现理解不同而产生的歧义。三、设计合理的表结构
通常合理的表结构会减少数据冗余,提高数据库的性能。设计合理的表结构要遵循以下两点。1.标准化和规范化数据的标准化有助于消除数据库中的数据冗余。标准化有好几种形式,但3NF(第三范式)通常被认为在性能、扩展性和数据完整性方面达到了最好平衡。简单来说,遵守3NF标准的数据库的表设计原则是:某个表只包括其本身基本的属性,当不是它们本身所具有的属性时需进行分解。表之间的关系通过外键相连接。它具有以下特点:有一组表专门存放通过键连接起来的关联数据。例如:某个存放单井信息及其有关油井生产日报信息的3NF数据库就有两个表:单井基础信息和油井日报信息。日报信息不包含单井的任何信息,但表内会存放一个键值,该键指向单井基础信息里包含该油井信息的那一行。不过也有例外,有时为了效率的缘故,对表不进行标准化也是必要的。2.考虑各种变化在设计数据库的时候考虑到哪些数据字段将来可能会发生变更。使数据库更具扩展性,从而减少将来数据变更所带来的损失。例如,日期类型字段,有时我们会考虑使用字符类型代替日期类型,因为在处理日期字段上容易产生数据错误,所以我们就使用字符类型。这样的例子还很多,在做前期设计时都要考虑的。表结构的设计不是一次就能成功的,在信息系统开发过程中会存在数据读取、录入或统计困难,为了解决这些问题会修改表结构,或增加一些字段,或修改一些字段的属性。这个过程不断重复,因此不要想一次能成功。建议使用专门设计工具来做这些工作,笔者经常使用:SYBASE,当然还有其它的工具:ORACLEDesigner2000,ROSE等工具。这样会使你的工作事半功倍。四、选择合理的索引
索引是从数据库中获取数据的最高效方式之一。95%的数据库性能问题都可以采用索引技术得到解决。1.逻辑主键使用唯一的成组索引,对系统键(作为存储过程)采用唯一的非成组索引,对任何外键列采用非成组索引。考虑数据库的空间有多大,表如何进行访问,还有这些访问是否主要用作读写。2.大多数数据库都索引自动创建的主键字段,但是可别忘了索引外键,它们也是经常使用的键,比如运行查询显示主表和所有关联表的某条记录就用得上。3.不要索引大型字段(有很多字符),这样作会让索引占用太多的存储空间。如MEMO(备注)、TEXT(文本)等字段。4.不要索引常用的小型表不要为小型数据表设置任何键,假如它们经常有插入和删除操作就更别这样作了。对这些插入和删除操作的索引维护可能比扫描表空间消耗更多的时间。如代码表,或系统参数表。五、保证数据完整性
数据的完整性非常重要,这关系到数据的准确性,不准确的数据是毫无价值的,因此保证数据的完整性非常重要。1.完整性实现机制:实体完整性:主键参照完整性:父表中删除数据:级联删除;受限删除;置空值父表中插入数据:受限插入;递归插入父表中更新数据:级联更新;受限更新;置空值DBMS对参照完整性可以有两种方法实现:外键实现机制(约束规则)和触发器实现机制用户定义完整性:NOTNULL;CHECK;触发器以上完整性机制需要熟悉和掌握,它对于数据的完整性非常重要。2.用约束而非业务规则强制数据完整性采用数据库系统实现数据的完整性。这不但包括通过标准化实现的完整性而且还包括数据的功能性。在写数据的时候还可以增加触发器来保证数据的正确性。不要依赖于业务层保证数据完整性;它不能保证表之间(外键)的完整性所以不能强加于其他完整性规则之上。3.强制指示完整性在有害数据进入数据库之前将其剔除。激活数据库系统的指示完整性特性。这样可以保持数据的清洁而能迫使开发人员投入更多的时间处理错误条件。4.使用查找控制数据完整性控制数据完整性的最佳方式就是限制用户的录入。只要有可能都应该提供给用户一个清晰的价值列表供其选择。这样将减少键入代码的错误和误解同时提供数据的一致性。某些公共数据特别适合查找:性别代码、单位代码等。5.采用视图视图是一个虚拟表,其内容由SQL语句定义,视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次指定全部的条件。另外通过视图用户只能查询和修改他们所能见到的数据。数据库中的其它数据则既看不见也取不到。数据库授权命令可以使每个用户对数据库的检索限制到特定的数据库对象上,增强数据的安全性。六、结束语
数据库的高效运行不仅需要技术上的支持,也需要硬件平台和网络的支持以及数据库管理员的有效管理,本文只是从技术的角度说明如何提高数据库的效率,但在实际应用过程中其它方面的支持也是不可缺少的,尤其是数据库管理,数据库建设是“三分技术,七分管理,十二分基础数据”,因此对于数据库管理一定要重视,在管理到位的情况下技术才能发挥应有的作用。
如何设计一个客户信息数据库?
数据库是用于存储大量数据的区城,它通常包括一个或多个表。数据库应用成为当今计算机应用的主要领域之一。VB提供了功能强大的数据库管理功能,能够方便、灵活地完成数据库应用中涉及的诸如建立数据库、查询和更新等各种基本操作。本章讨论数据库的基本概念、VB中提供的Data控件、DBGrid控件、ADOData控件的使用方法和SQL语言。
关系数据库以表的形式(即关系)组织数据。关系数据库以关系的数学理论为基础。在关系数据库中,用户可以不必关心数据的存储结构,同时,关系数据库的查询可用高级语言来描述,这大大提高了查询效率。
VB本身使用的数据库是Access数据库,可以在VB中直接创建,库文件的扩展名为.MDB。
下面讨论关系数据库的基本术语。
1.表
表用于存储数据,它以行列方式组织,可以使用SQL从中获取、修改和删除数据。表是关系数据库的基本元素。表在我们生活中随处可见,如职工表、学生表和统计表等。表具有直观、方便和简单的特点。
表是一个二维结构,行和列的顺序并不影响表的内容。
2.记录
记录是指表中的一行,在一般情况下,记录和行的意思是相同的。在表10.1中,每个学生所占据的一行是一个记录,描述了一个学生的情况。
3.字段
字段是表中的一列,在一般情况下,字段和列所指的内容是相同的。在表10.1中,如“学号”一列就是一个字段。
4.关系
关系是一个从数学中来的概念,在关系代数中,关系是指二维表,表既可以用来表示数据,也可以用来表示数据之间的联系。
在数据库中,关系是建立在两个表之间的链接,以表的形式表示其间的链接,使数据的处理和表达有更大的灵活性。有3种关系,即一对一关系、一对多关系和多对多关系。
5.索引
索引是建立在表上的单独的物理数据库结构,基于索引的查询使数据获取更为快捷。索引是表中的一个或多个字段,索引可以是唯一的,也可以是不唯一的,主要是看这些字段是否允许重复。主索引是表中的一列和多列的组合,作为表中记录的唯一标识。外部索引是相关联的表的一列或多列的组合,通过这种方式来建立多个表之间的联系。
6.视图
视图是一个与真实表相同的虚拟表,用于限制用户可以看到和修改的数据量,从而简化数据的表达。
7.存储过程
存储过程是一个编译过的SQL程序。在该过程中可以嵌入条件逻辑、传递参数、定义变量和执行其他编程任务
在VB中,可用的数据访问接口有3种:ActiveX数据对象(ADO)、远程数据对象(RDO)和数据访问对象(DAO)。数据访问接口是一个对象模型,它代表了访问数据的各个方面。可以在任何应用程序中通过编程控制连接、语句生成器和供使用的返回数据。
为什么在VB中有3种数据访问接口呢?因为数据访问技术总是不断进步,而这3种接口的每一种都分别代表了该技术的不同发展阶段。最新的是ADO,它比RDO和DAO更加简单,而且是更加灵活的对象模型。对于新工程,应该使用ADO作为数据访问接口。
ADO控件是VB?6.0中文版提供的一个ActiveX控件,与旧版的Data控件相似。
客户信息库包括主要包括客户的基本资料、客户购买行为特征、客户服务记录、客户维修记录、客户订单记录、客户对企业及竞争对手的产品服务评价、客户建议与意见...
客户信息数据库的建立
1.信息采集
信息采集来源主要有:市场调研分析人员、市场销售人员、售后维护人员、广告宣传人员、大客户的直接反映、投诉记录的信息、销售渠道中传来的信息等。企业要规范信息采集点的采集行为、信息采集人员的责权、采集内容与输入信息的格式等。
2.数据集成
企业要借助相应的软件系统来仂、助处理各种采集到的信息并集成为系统,该系统应是企业庞大的数据库。
3.信息整理、分析、总结
企业要有专门的机构来整理、分析、总结客户信息,并提出可行的决策建议,指导企业的销售和客户服务,提高客户的满意度。
4.数据传递渠道
企业对客户信息加工之后,就要通过信息传递渠道,保证在第一时间将最重要的信息传递到相关的决策者手中。业务流程重组的第一个方面就是根据企业的信息来重组,所以要保证信息流的快速和有效。企业要根据实际情况健全自己的信息传递渠道。
重点案例请参考:
1.海尔定制家电
2.永辉“买菜到家”
客户信息数据库,可以考虑用主表和扩展
表的形式。
比如
主表customer
intid,varcharname,tinyintsex,intage,varcharphone
扩展表
customer_extension
intid,intcustomer_id,varcharcompany,varcharposition
基于MySQL设计的,扩展表关联主表的id
具体业务可以增加字段和数据表。
如何进行数据库设计
(来源于 微软特约讲师 邵志东 的视频课件) 一、数据库设计任务: 有几张表? 各个表有哪几个字段? 每个表之间的字段? 二、如何得到 需要进行分析的内容,以便完成数据库设计任务: 涉及到的人物? 涉及到的内容? 人物和内容之间的关系? 三、数据库设计的 (来源于 微软特约讲师 邵志东 的视频课件) 一、数据库设计任务:有几张表?各个表有哪几个字段?每个表之间的字段?二、如何得到需要进行分析的内容,以便完成数据库设计任务:涉及到的人物?涉及到的内容?人物和内容之间的关系?三、数据库设计的正规化形式正确设计数据库,需要满足四级正规化要求:(一)第一级正规化形式(解决可扩展性)1、消除每个表格中重复的组2、为每套相关的数据建立一个独立的表格3、使用一个主键来标识每套相关的数据(二)第二级正规化形式1、为应用在多条记录的字段建立独立的表格2、通过一个外键来关联这些表格的值(三)第三级正规化形式消除不依赖于该键的字段(四)第四级正规化形式在一个多对多的关系中,独立的实体不能存放在同一表格中至于这四级正规化形式是什么意思,如何进行正规化,请查阅邵志东的WEBCAST视频教程: asp.net项目实战(三)
11招教你如何玩转数据库设计_MySQL
bitsCN.com 在日常工作中,当我们遇到海量数据时,如何从中挑选出自己想要的数据呢?是盲目的查找,还是寻求新的解决方案亦或是通过技巧来获取?开发者在设计一个数据表单时,往往会遵循三条常用形式,他们认为常规模式是设计的唯一途径。然而由于开发者一开始就抱有这种心态,使数据表单设计变得墨守成规,阻碍了它的创新。 作者Shivprasad 从平时的工作项目中积累了一些经验,向我们介绍了11款制作数据表单技巧,当设计到数据表单制作时,不妨以此来参考,以丰富我们的应用经验。 Rule 1:弄清(OLTP或OLAP)应用的本质是什么? 当开始制作数据表单设计时,首先,要分析你设计的这个程序的本质是什么?是事务性还是分析性的?你会发现许多开发者会默认应用常规化规则,随后才考虑性能问题而不考虑应用的本质。 关于事务性和分析性,一起来看下两者区别。 Transactional:这种应用,用户对CRUD较为感兴趣,即创建、读取、更新和删除记录。这种数据,官方名称之位OLTP。 Analytical:用户对分析、报告、预测等方面感兴趣。这类数据库很少有嵌入和更新。主要目的是为了尽快获取和分析数据。官方名称之为OLAP。 换句话说,如果你想以嵌入、更新、删除为重点,可选择常规化的表单设计或者创建一个简单的非常规化的数据架构。 下面是一个简单的图表,左侧显示名称和地址,采用非规范化结构设计出的一款简单的常规表单。 Rule 2:将数据按照逻辑思维分成不同的块,让生活更简单 这个规则其实就是 “三范式” 中的第一范式。这样设计的目标,是为了当你需要查询套多的字符串解析功能时,如子串,charindexetc,它能为你提供这项功能。 例如,注意观看下面的图表,如果你想查询某个学生的姓名,通过“Koirala”和“Harisingh”来进行区分。 因此,更好的方法就是打破数据逻辑思维,以便我们编写更加简洁、容易查询的表单。 Rule 3:当数据太多时,rule 2不可用 开发者们的思维有时很单一,如果你告诉他们某种方式,他们会一直这么做下去,要知道过度的使用会造成不必要的麻烦。正如我们之前谈到的rule 2,首先要进行分解,明确自己的需求。例如,当你看到电话号码字段时,你可以在ISD代码上进行操作区分这些电话号码(直到满足你的需求)。尽管这是不错的方法,但会给你带来更多的并发症。 Rule 4:将重复、不统一的数据视作你最大的敌人 聚焦和重构复制数据。我比较担心的不是复制数据所需要的磁盘空间而是它因此而造成的混乱。 从下面的图表中,“5th Standard”和“Fifth standard”意思是相同的,你可以说是因为数据或者验证数据录入到你的系统原因,如果你想通过报表来显示他们的不同之处,从用户的角度开看,这是非常困难的。 其中一个解决方法就是将不同的任务栏把相同的数据通过新建一个键入值联接在一起。如图。我们通过创建一个新的条目“Standards”即可将数据重新排,显示相同的部分。 Rule 5:注意被分隔符分割的数据 前面的规则2即“第一范式”提到避免数组重复,如图所示。如果你看到教学大纲紧密排列在一起,这个领域中需要很多数据来填充,这种我们称之为“重复数组”。如果我们必须操纵这些数据,单凭查询是很困难的,我甚至还怀疑是否具备这个查询功能。 这些带分隔符的数据需要特别注意,如何利用更好的方法将这些数据移动到一个不同的任务栏中,以便更好的分类呢?如图: 如图所示,可以看到我创建了一个独立的教学科目条目,然后列出了与之有相关联的科目。这种方法主要适用于在教学大纲领域,避免过多的重复和数据分隔符中。 Rule 6:当心数据依赖 观察该领域中的部分列表。如图,我们创建了roll number和standard,可以看到教学科目紧密联系在一起,但与学生学习的科目没有直接关联。如果我们想给每位学生更新教学科目,这似乎看起来是不符合逻辑的,但是通过键入standard条目转换这些数据就可达到目的。 这个规则告诉我们“所有的键入都应该依赖主键”。All keys should depend on the full primary key and not partially。 Rule 7:选择派生列 如果你想进行OLTP应用首先得筛选出派生列,在OLAP中我们需要做一些求和,方可获得uixie很好的性能。如图,求的平均数需要利用marks和subject两列。 这个规则被称为第三范式,“不应该有依赖于非主键的列”(No columns should depend on other non-primary key columns)我个人认为是不能盲目使用此规则。如果该数据是计算过的数据,看清状况然后在决定实施第三范式。 Rule 8:如果性能很关键,不要避开冗余数据 如果你迫切的考虑到性能规范化问题,通常情况下需要连接许多列表以及减少增加非规范化的列表以便来提高数据图表性能。 Rule 9:数据多、繁杂 OLAP项目主要是为了处理数据繁多,例如,如图所示,假如你想获得每个国家、每个用户、每年的销售额度。对于这种情况,你可以创建一个实际销售列表条目(sales fact table)。 Rule 10:设计name value table列表 明值表意味着它有一些键,这些键被其他数据关联着。如图所示,我们需要弄清楚currency table (货币列)和country table(国家列),图中键入值(数字部分)显示的就是我们所需要的数据。 通过创建键入值(Type)来显示出不同区域的数据。 Rule 11:无限制结构数据,自定义PK和FK 我们会经常碰到一些无限父子分级结构的数据。例如:考虑到一个多层次的营销方案,其中一个销售人员可以领导多个销售人员。在这种情况下,你可以使用自定义的主键和设置外键来帮助你实现统一。 您可以根据自身的项目需求选择不同的数据处理方法。如下所示:三种常规范式。 英文出自:c-sharpcorner bitsCN.com
具体的数据库设计与实现过程
大致的讲主要是根据用户的需求,然后设计数据库的E-R模型,然后将E-R模型图转换为各种表,并对其进行数据库设计范式(范式因不同书籍有不同)的审核,然后进行数据库的实施,然后运行维护。
一句话来讲就是将用户的需求变成带有各种关系的表,以及其它的数据库结构,然后供编程使用
具体如下:
按照规范设计的方法,考虑数据库及其应用系统开发全过程,将数据库设计分为以下六个阶段
(1)需求分析。
(2)概念设计。
(3)逻辑设计。
(4)物理设计。
(5)数据库实施。
(6)数据库运行和维护。
5.1.1需求分析阶段
进行数据库设计首先必须准确了解与分析用户需求,包括数据与处理需求。需求分析是整个设计过程的基础,是最困难、最耗时的一步。作为“地基”的需求分析是否做得充分与准确,决定了在其上构建“数据库大厦”的速度与质量。需求分析做得不好,可能会导致整个数据库重新设计,因此,务必引起高度重视。
5.1.2概念模型设计阶段
在概念设计阶段,设计人员仅从用户角度看待数据及其处理要求和约束,产生一个反映用户观点的概念模式,也称为“组织模式”。概念模式能充分反映现实世界中实体间的联系,又是各种基本数据模型的共同基础,易于向关系模型转换。这样做有以下好处:
(1)数据库设计各阶段的任务相对单一化,设计复杂程度得到降低,便于组织管理。
(2)概念模式不受特定DBMS的限制,也独立于存储安排,因而比逻辑设计得到的模式更为稳定。
(3)概念模式不含具体的DBMS所附加的技术细节,更容易为用户所理解,因而能准确地反映用户的信息需求。
概念模型设计是整个数据库设计的关键,它通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型。如采用基于E-R模型的数据库设计方法,该阶段即将所设计的对象抽象出E-R模型;如采用用户视图法,则应设计出不同的用户视图。
5.1.3逻辑模型设计阶段
逻辑模型设计阶段的任务是将概念模型设计阶段得到的基本E-R图,转换为与选用的DBMS产品所支持的数据模型相符合的逻辑结构。如采用基于E-R模型的数据库设计方法,该阶段就是将所设计的E-R模型转换为某个DBMS所支持的数据模型;如采用用户视图法,则应进行表的规范化,列出所有的关键字以及用数据结构图描述表集合中的约束与联系,汇总各用户视图的设计结果,将所有的用户视图合成一个复杂的数据库系统。
5.1.4数据库物理设计阶段
数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存取方法。显然,数据库的物理设计完全依赖于给定的硬件环境和数据库产品。在关系模型系统中,物理设计比较简单一些,因为文件形式是单记录类型文件,仅包含索引机制、空间大小、块的大小等内容。
物理设计可分五步完成,前三步涉及到物理结构设计,后两步涉及到约束和具体的程序设计:
(1)存储记录结构设计:包括记录的组成、数据项的类型、长度,以及逻辑记录到存储记录的映射。
(2)确定数据存放位置:可以把经常同时被访问的数据组合在一起,“记录聚簇(cluster)”技术能满足这个要求。
(3)存取方法的设计:存取路径分为主存取路径及辅存取路径,前者用于主键检索,后者用于辅助键检索。
(4)完整性和安全性考虑:设计者应在完整性、安全性、有效性和效率方面进行分析,作出权衡。
(5)程序设计:在逻辑数据库结构确定后,应用程序设计就应当随之开始。物理数据独立性的目的是消除由于物理结构的改变而引起对应用程序的修改。当物理独立性未得到保证时,可能会引发对程序的修改。
数据库物理设计是为逻辑数据模型选取一个最适合应用环境的物理结构,包括存储结构和存取方法。
5.1.5数据库实施阶段
根据逻辑设计和物理设计的结果,在计算机系统上建立起实际数据库结构、装入数据、测试和试运行的过程称为数据库的实施阶段。实施阶段主要有三项工作。
(1)建立实际数据库结构。对描述逻辑设计和物理设计结果的程序即“源模式”,经DBMS编译成目标模式并执行后,便建立了实际的数据库结构。
(2)装入试验数据对应用程序进行调试。试验数据可以是实际数据,也可由手工生成或用随机数发生器生成。应使测试数据尽可能覆盖现实世界的各种情况。
(3)装入实际数据,进入试运行状态。测量系统的性能指标,是否符合设计目标。如果不符,则返回到前面,修改数据库的物理模型设计甚至逻辑模型设计。
5.1.6数据库运行和维护阶段
数据库系统正式运行,标志着数据库设计与应用开发工作的结束和维护阶段的开始。运行维护阶段的主要任务有四项:
(1)维护数据库的安全性与完整性:检查系统安全性是否受到侵犯,及时调整授权和密码,实施系统转储与备份,发生故障后及时恢复。
(2)监测并改善数据库运行性能:对数据库的存储空间状况及响应时间进行分析评价,结合用户反应确定改进措施。
(3)根据用户要求对数据库现有功能进行扩充。
(4)及时改正运行中发现的系统错误。
如何设计一个能够高效查询的千万级MySQL数据库?
首先要确定你的目标,所谓千万级是每秒千万次查询还是千万条记录的数据库,前者是一个极其复杂的,这个不是光告mysql能解决的,我想不是前者,而后者却是很简单的一件事,前提是定义高效,定义两个指标:
1,每秒查询的次数是多少
2,每次查询时长
确定好以后再考虑以下几个因素的优化
1,存储的类型,SSD比普通磁盘的随机读写能力可以提高不少,一般2到3个数量级,还要看索引和数据块的大小,比较复杂
2,先择RAID类型,如果选raid0和raid10可以提升近似1倍的速度
3,使用高带宽的网速,可以减少网络传输延迟,用10g的光纤比1g的电缆理论上可以提升1个数量级的吞吐量,尤其对大数据据量的结果集特别有效
4,合理的索引,带条件的检索字段加上索引
5,用大宽表,尽可能减少多表关联查询,用空间换时间吧
6,_用主从的集群,基本上查询的并发量和服务器的数量成正比的
7,使用缓存,如memcached,尤其对静态数据提升尤其明显
8,合理选择数据库字段的类型,用定长字字,不要用变长的,如定长的int,char,decimal类型,别用varchar,text等
9,给数据库配置更大的内存
10,检查下瓶颈在不在CPU,如果查询复杂,换个更高配置的服务器
总的原刚就是,尽可能用内存替代碰盘提升IO速度,提高网络和CPU的配置以减少查询时间;尽可能提升网络速度,内存和主机的数量以提高并发
我们先探讨非高并发量的实现。
对于查询频次较高的字段,加上索引。
加索引注意事项:
1.对那些字符内容较长的最好不要加索引
2.按照官方文档,单表加的索引不要超过16个,索引的长度不要超过256个字节。
随意加索引,会给数据维护增加负担
其实,可以引入分区。
分区注意事项:
1.常见的分区类型有range,list,hash,key等。用的比较多的就是range分区。
2.对于初始建立索引的时候,我们往往会忽视一个前提条件,导致添加失败报错。
这里的前提是,如果表是有主键的,分区的键和主键不是同一个,那么分区的键也必须是主键。
引入分区后,数据写入时,数据库会自动判断写入哪个分区
对于并发量较高的,我们除了做上面的操作外,就要考虑分库分表或者采用一主多从的方式。
未来我相信这类问题需要采用NewSQl这类数据库来解决,如TiDb等,此时,我们将不必考虑数据分区的问题,而且可以做到数据水平无限扩展,和热点数据的动态分布。