xml文件属于非结构化文档,xml是什么意思?
xml文件属于非结构化文档,xml是什么意思?详细介绍
本文目录一览: xml文档属于什么结构数据?
XML(可扩展标记语言)是一种用于描述和交换数据的标记语言,它采用树形结构,因此可以看作是一种层次结构数据。在 XML 文档中,标签嵌套的层次结构决定了文档的层次结构,每个元素都有其自己的子元素和属性,它们可以被表示为一个树形结构。因此,XML 数据可以通过遍历节点来访问和操作,这种树形结构也使得 XML 数据可以用于在应用程序之间交换数据。
xml是什么格式的文件
xml是一种纯文本格式的文件。xml指的是可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言;而XML文件一般指里面写有可扩展标记语言代码的文件。
XML的特点
XML可以从HTML中分离数据。即能够在HTML文件之外将数据存储在XML文档中,这样可以使开发者集中精力使用HTML做好数据的显示和布局,并确保数据改动时不会导致HTML文件也需要改动,从而方便维护页面。XML也能够将数据以“数据岛”的形式存储在HTML页面中,开发者依然可以把精力集中到使用HTML格式化和显示数据上。
XML可用于交换数据。基于XML可以在不兼容的系统之间交换数据,计算机系统和数据库系统所存储的数据有多种形式,对于开发者来说,最耗时间的工作就是在遍布网络的系统之间交换数据。把数据转换为XML格式存储将大大减少交换数据时的复杂性,还可以使这些数据能被不同的程序读取。
XML可应用于B2B中。例如在网络中交换金融信息,目前XML正成为遍布网络的商业系统之间交换信息所使用的主要语言,许多与B2B有关的完全基于XML的应用程序正在开发中。
利用XML可以共享数据。XML数据以纯文本格式存储,这使得XML更易读、更便于记录、更便于调试,使不同系统、不同程序之间的数据共享变得更加简单。
XML可以充分利用数据。XML是与软件、硬件和应用程序无关的,数据可以被更多的用户、设备所利用,而不仅仅限于基于HTML标准的浏览器。其他客户端和应用程序可以把XML文档作为数据源来处理,就像操作数据库一样,XML的数据可以被各种各样的“阅读器”处理。
结构化数据和非结构化数据的区别
结构化数据和非结构化数据的区别:定义不同、来源不同、形式不同、模型不同、存储不同。
1、定义不同
结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等。
2、来源不同
结构化数据:结构化数据源来自GPS传感器、在线表单、网络日志、Web服务器日志、OLTP系统等。
非结构化数据:非结构化数据源包括电子邮件、文字处理文档、PDF文件等。
3、形式不同
结构化数据:结构化数据由数字和值组成。
非结构化数据:非结构化数据由传感器、文本文件、音频和视频文件等组成。
4、模型不同
结构化数据:结构化数据具有预定义的数据模型,并且在放入数据存储(例如,写入时模式)之前被格式化为设定的数据结构。
非结构化数据:非结构化数据则以其本机格式存储,并且在使用之前不会进行处理(例如,读取时模式)。
5、存储不同
结构化数据:结构化数据以表格格式(例如,Excel工作表或SQL数据库)存储,需要较少的存储空间。它可以存储在数据仓库中,这使其具有高度的可扩展性。
非结构化数据:非结构化数据存储为媒体文件或NoSQL数据库,这需要更多的空间。它可以存储在数据湖中,这使得它难以扩展。
结构化数据和非机构化数据的区别
在实际应用中会遇到各式各样的数据库如nosql非关系数据库(memcached,redis,mangodb),RDBMS关系数据库(oracle,mysql等),还有一些其它的数据库如hbase,在这些数据库中,又会出现结构化数据,非结构化数据,半结构化数据,下面列出各种数据类型:
结构化数据:
能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号。传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。
半结构化数据:
所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
非结构化数据:
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
结构化数据和非结构化数据是什么意思
整体上我们将数据类型分为结构化数据、半结构化数据、非结构化数据。
结构化数据——能够用数据或统一的结构加以表示,如数字、文字、符号。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
半结构化数据——是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
非结构化数据——非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括图像和音频/视频信息等等。丢失的视频数据就属于非结构化数据。
在信息社会,信息可以划分为两大类.一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据.结构化数据属于非结构化数据,是非结构化数据的特例.
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大.这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显.因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代.所谓非结构化数据库,是指数据库的变长纪录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成.简单地说,非结构化数据库就是字段可变的数据库.
结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。
扩展资料
结构化和非结构化数据之间的差异除了存储在关系数据库和存储非关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。
并且非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上,并且以每年55%~65%的速度增长。如果没有工具来分析这些海量数据,企业数据的巨大价值都将无法发挥。
参考资料来源:百度百科—结构化数据
XML文档是什么?
所谓的xml,就是eXtensible Markup Language, 翻译成中文就是“可扩展标识语言“,在国内很多人理解xml为html的简单扩展,这实际上是一种误解。尽管xml同html关系非常密切。
XML与SGML、HTML的关系。
SGML、HTML是XML的先驱。SGML是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML相比,定义的功能很强大,缺点是它不适用于Web数据描述,而且SGML软件价格非常价格昂贵。 HTML相信大家都比较熟悉,即“HyperText Markup Language” (超文本标识语言),它的优点是比较适合web 页面的开发。但它有一个缺点是标记相对少,只有固定的标记集如
.等。缺少sgml 的柔性和适应性。不能支持特定领域的标记语言,如对数学、化学、音乐等领域的表示支持较少。举个例子来说,开发者很难在web pape 上表示数学公式、化学分子式和乐谱。
Xml 结合了sgml 和html的优点并消除其缺点。Xml 仍然被认为是一种sgml语言。比sgml要简单,但能实现sgml的大部分的功能。1996年的夏天,Sun Microssystem的John Bosak开始开发W3C SGML工作组(现在称为xml工作组)。他们的目标是创建一种sgml,使其在Web中,既能利用Sgml的长处,又保留html的简单性。现在目标基本达到。
二、Xml 的发展。
在专业领域中,出现了Web标记语言的许多项目,著名的有CML—化学标记语言,由Peter Murray_Rust 开发,同时开发了第一个通用xml 浏览器Jumbo . 在数学方面,包括IBM公司再内都在致力开发MathML 1997年四月,出版了xll的第一个版本。当xll完整实现时,将比html 和当前浏览器所达到的链接水平更复杂,更强大。1997年8月,Microsoft公司和Inso公司引入xsl.由于xml是纯结构和语义的,需要描述单个元素格式方法。可以使用html的CSS;另一种方案是xsl. 1998年1月,microsoft 公司出版发行了msxsl程序。可以利用xsl表和xml文档创建能被IE4 识别的html页面。1998年2月,W3C发布了xml1.0的正式版本。最近一年多来,由于网络应用的飞速发展,xml的发展非常迅猛。出现了DOM(Document Object Model),XSLT(XSL Transformation)等新名词,xml的应用软件也有了飞速的发展,Microsoft、IBM、Breeze、Stilo等公司纷纷推出了自己的或解析器,或开发平台。在MicrosoftIBM、HP等大公司的推动下,目前有两个著名的xml的研究组织,分别是biztalk.com和oasis.org,由他们向W3C提出标准的建议。其中biztalk是有Microsoft牵头组织的,有趣的是Microsoft公司同时参加了oaisis,不过不同于IBM、HP等著名大公司,他的年费只交10万美元,用Microsoft发言人的话就是“一切视oasis的发展而定!“,言下之意就是如果oasis制定的标准抵触Microsoft的应用,一场标准大战不可避免。
什么是XML
首先XML是一种元标记语言,所谓“元标记”就是开发者可以根据自己的需要定义自己的标记,比如开发者可以定义如下标记
,任何满足xml命名规则的名称都可以标记,这就为不同的应用程序打开了的大门。HTML是一种预定义标记语言,它只认识诸如,
等已经定义的标记,对于用户自己定义的标记是不认识的。 第二xml是一种语义/结构化语言。它描述了文档的结构和语义。举个例子,在和html中,要描述一本书,可以如下表示:
- publisher_name ;;;;
- isbn_number
-
在xml中,同样的数据表示为
book name author name publisher name
isbn_number
从上面的对比,可以看出,xml的文档是有明确语义并且是结构化的。 XML是一种通用的数据格式从低级的角度看,xml是一种简单的数据格式,是纯100%的ASCII文本,而ASCII的抗破坏能力是很强的。不象压缩数据和java对象,只要破坏一个数据文件数据就不可阅读。 从高级的角度看,是一种自描述语言。
XML可利用于数据交换 主要是因为XML表示的信息独立于平台的,这里的平台即可以理解为不同的应用程序也可以理解为不同的操作系统;它描述了一种规范,利用它Microsoft的word文档可以和Adobe 的Acrobat交换信息,可以和数据库交换信息。
XML表示的结构化数据。
对于大型复杂的文档,xml 是一种理想语言,不仅允许指定文档中的词汇,还允许指定元素之间的关系。比如可以规定一个author元素必须有一个name子元素。可以规定企业的业务必须有包括什么子业务。
XML文档。 XML文档有DTD和XML文本组成,所谓DTD(Document Type Definition ),简单的说就是一组标记符的语法规则.,表明XML文本是怎么样组织的,比如DTD可以表示一个必须有一个子标记
, 可以有或者没有子标记
等等。当然一个简单的XML文本可以没有DTD。下面是一个简单的xml文本。
haha
其中以?开始并结尾的是进程说明。Standalone表示外围设备。这里外围设备可以理解为该XML文本没有应用其他的文件。因为XML文件可以外部应用DTD等外部数据。
XML 涉及的一些技术。
XSL和CSS。
通过前面的介绍可以知道,XML可以定义信息的内容,却没有定义信息该如何表达,这实际上就是XML的长处,它把内容和形式分离了,这样同一个内容可以有不同的表达,相信随着XML应用的提高,那种“建议你使用800x600分辨率“的会消失。而XML内容的表达就是通过XSL(XML Style Language)和CSS(Cascading Style Sheets 层叠样式表)来实现。拿前一个例子来说,可以为该xml文档定义的样式表(XSL)如下:这就是一个简单的 XSL文件,利用msxsl可以生成html文件。如下
haha 至于CSS,在HTML文件中就已经有它的影子了,例如 H1 { font-size: 12pt; font-weight: bold; } 这就是一段简单的CSS的文本。
XML Schema 尽管DTD给标记的使用加了限制,但是对于XML的自动处理却还需要更加严格更全面的工具。比如DTD不能保证一个标记的某个属性的值必须不为负值,于是出现了XML Schema,由于XML Schema(不同于DTD)本身也是一个正规的XML文档,因此开发者可以使用相同的工具处理其同其他的XML的信息交换。最初XML Schema由Microsoft提出,W3C 的专家们经过充分讨论和论证,在1999年的2月,发布了一个需求定义,说明Schema必须符合的要求,5月,W3C完成并发布了Schema的定义。目前,IE5中的XML解析器能够根据文档类型定义(DTD)或XML Schema解析XML
关于DOM DOM即Document Object Model, 它把XML文档的内容实现为一个对象模型,简单的说就是应用程序如何访问XML文档,W3C的DOM Level 1 定义了如何实现属性、方法、事件等。
关于XSLT XSLT即XML Stylesheet Language Transformation. 在写本文时正式标准还没有正式形成,在1999年的11月通过了《XSLT》。XSLT是一种用来进行XML文档间相互转化的语言。简单的说,我们知道不同的开发者对于各自的应用会用不同的XML文档,利用XSLT我们可以从一个已经定义的XML文档抽取我们需要的数据,组成不同的形式,可以是XML, HTML和各种不同的SCRIPT。
关于Xpointer和Xlinks
类似于HTML中的Hyper Link. Xpointer 和Xlink用于联结其他的XML文档和其他XML文档中的部分,其中Xpointer相当于HTML中用于定位HTML文档子内容的锚!不过其联结水平更强大。比如,在bookstore中,可以定位到有一个作者叫金庸,书中有四大恶人的那本书,在HTML中,这是不可能实现的。
当然,XML的发展促使了许多的新技术的出现,其他的还有RDF、Xfrom等等,其中的大部分W3C只是给出了建议,还没有形成正式的标准,有些内容甚至还处于讨论阶段。我们将密切注视着方面内容的变化。
XML 框架
所谓框架即Framework。XML是一个通用的标准。它不属于个人,认证它的也不是一家公司,而是W3C。那么为什么那么多的大公司纷纷趋指如鹜呢?各家公司互相竞争的是它的framework, 是它的Schema. XML framework是驾驭XML文件的结构,是一种高层次的结构控制。利用XML framework,可以把商业逻辑(business logic)分离出来,实现数据与计算的分离。目前著名的framework有Microsoft的Biztalk 以及联合国(UN/CEFACT)和OASIS联合于99年底推出了EBXML动议。相信在不久的将来会有许多的Framwork. 其中的一个问题就是在W3C中关于XML的很多东西还处于建议的时候,就推出framework,是不是一种冒险。不过,互联网的发展似乎就是这样,关于framwwork的发展,我们将拭目以待
所谓的xml,就是eXtensible Markup Language, 翻译成中文就是“可扩展标识语言“,在国内很多人理解xml为html的简单扩展,这实际上是一种误解。尽管xml同html关系非常密切。
XML与SGML、HTML的关系。
SGML、HTML是XML的先驱。SGML是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML相比,定义的功能很强大,缺点是它不适用于Web数据描述,而且SGML软件价格非常价格昂贵。 HTML相信大家都比较熟悉,即“HyperText Markup Language” (超文本标识语言),它的优点是比较适合web 页面的开发。但它有一个缺点是标记相对少,只有固定的标记集如.等。缺少sgml 的柔性和适应性。不能支持特定领域的标记语言,如对数学、化学、音乐等领域的表示支持较少。举个例子来说,开发者很难在web pape 上表示数学公式、化学分子式和乐谱。
Xml 结合了sgml 和html的优点并消除其缺点。Xml 仍然被认为是一种sgml语言。比sgml要简单,但能实现sgml的大部分的功能。1996年的夏天,Sun Microssystem的John Bosak开始开发W3C SGML工作组(现在称为xml工作组)。他们的目标是创建一种sgml,使其在Web中,既能利用Sgml的长处,又保留html的简单性。现在目标基本达到。
二、Xml 的发展。
在专业领域中,出现了Web标记语言的许多项目,著名的有CML—化学标记语言,由Peter Murray_Rust 开发,同时开发了第一个通用xml 浏览器Jumbo . 在数学方面,包括IBM公司再内都在致力开发MathML 1997年四月,出版了xll的第一个版本。当xll完整实现时,将比html 和当前浏览器所达到的链接水平更复杂,更强大。1997年8月,Microsoft公司和Inso公司引入xsl.由于xml是纯结构和语义的,需要描述单个元素格式方法。可以使用html的CSS;另一种方案是xsl. 1998年1月,microsoft 公司出版发行了msxsl程序。可以利用xsl表和xml文档创建能被IE4 识别的html页面。1998年2月,W3C发布了xml1.0的正式版本。最近一年多来,由于网络应用的飞速发展,xml的发展非常迅猛。出现了DOM(Document Object Model),XSLT(XSL Transformation)等新名词,xml的应用软件也有了飞速的发展,Microsoft、IBM、Breeze、Stilo等公司纷纷推出了自己的或解析器,或开发平台。在MicrosoftIBM、HP等大公司的推动下,目前有两个著名的xml的研究组织,分别是biztalk.com和oasis.org,由他们向W3C提出标准的建议。其中biztalk是有Microsoft牵头组织的,有趣的是Microsoft公司同时参加了oaisis,不过不同于IBM、HP等著名大公司,他的年费只交10万美元,用Microsoft发言人的话就是“一切视oasis的发展而定!“,言下之意就是如果oasis制定的标准抵触Microsoft的应用,一场标准大战不可避免。
什么是XML
首先XML是一种元标记语言,所谓“元标记”就是开发者可以根据自己的需要定义自己的标记,比如开发者可以定义如下标记,任何满足xml命名规则的名称都可以标记,这就为不同的应用程序打开了的大门。HTML是一种预定义标记语言,它只认识诸如,
等已经定义的标记,对于用户自己定义的标记是不认识的。 第二xml是一种语义/结构化语言。它描述了文档的结构和语义。举个例子,在和html中,要描述一本书,可以如下表示:
- publisher_name ;;;;
- isbn_number
-
在xml中,同样的数据表示为
book name author name publisher name
isbn_number
从上面的对比,可以看出,xml的文档是有明确语义并且是结构化的。 XML是一种通用的数据格式从低级的角度看,xml是一种简单的数据格式,是纯100%的ASCII文本,而ASCII的抗破坏能力是很强的。不象压缩数据和java对象,只要破坏一个数据文件数据就不可阅读。 从高级的角度看,是一种自描述语言。
XML可利用于数据交换 主要是因为XML表示的信息独立于平台的,这里的平台即可以理解为不同的应用程序也可以理解为不同的操作系统;它描述了一种规范,利用它Microsoft的word文档可以和Adobe 的Acrobat交换信息,可以和数据库交换信息。
XML表示的结构化数据。
对于大型复杂的文档,xml 是一种理想语言,不仅允许指定文档中的词汇,还允许指定元素之间的关系。比如可以规定一个author元素必须有一个name子元素。可以规定企业的业务必须有包括什么子业务。
XML文档。 XML文档有DTD和XML文本组成,所谓DTD(Document Type Definition ),简单的说就是一组标记符的语法规则.,表明XML文本是怎么样组织的,比如DTD可以表示一个必须有一个子标记
, 可以有或者没有子标记
等等。当然一个简单的XML文本可以没有DTD。下面是一个简单的xml文本。
haha
其中以?开始并结尾的是进程说明。Standalone表示外围设备。这里外围设备可以理解为该XML文本没有应用其他的文件。因为XML文件可以外部应用DTD等外部数据。
XML 涉及的一些技术。
XSL和CSS。
通过前面的介绍可以知道,XML可以定义信息的内容,却没有定义信息该如何表达,这实际上就是XML的长处,它把内容和形式分离了,这样同一个内容可以有不同的表达,相信随着XML应用的提高,那种“建议你使用800x600分辨率“的会消失。而XML内容的表达就是通过XSL(XML Style Language)和CSS(Cascading Style Sheets 层叠样式表)来实现。拿前一个例子来说,可以为该xml文档定义的样式表(XSL)如下:这就是一个简单的 XSL文件,利用msxsl可以生成html文件。如下
haha 至于CSS,在HTML文件中就已经有它的影子了,例如 H1 { font-size: 12pt; font-weight: bold; } 这就是一段简单的CSS的文本。
XML Schema 尽管DTD给标记的使用加了限制,但是对于XML的自动处理却还需要更加严格更全面的工具。比如DTD不能保证一个标记的某个属性的值必须不为负值,于是出现了XML Schema,由于XML Schema(不同于DTD)本身也是一个正规的XML文档,因此开发者可以使用相同的工具处理其同其他的XML的信息交换。最初XML Schema由Microsoft提出,W3C 的专家们经过充分讨论和论证,在1999年的2月,发布了一个需求定义,说明Schema必须符合的要求,5月,W3C完成并发布了Schema的定义。目前,IE5中的XML解析器能够根据文档类型定义(DTD)或XML Schema解析XML
关于DOM DOM即Document Object Model, 它把XML文档的内容实现为一个对象模型,简单的说就是应用程序如何访问XML文档,W3C的DOM Level 1 定义了如何实现属性、方法、事件等。
关于XSLT XSLT即XML Stylesheet Language Transformation. 在写本文时正式标准还没有正式形成,在1999年的11月通过了《XSLT》。XSLT是一种用来进行XML文档间相互转化的语言。简单的说,我们知道不同的开发者对于各自的应用会用不同的XML文档,利用XSLT我们可以从一个已经定义的XML文档抽取我们需要的数据,组成不同的形式,可以是XML, HTML和各种不同的SCRIPT。
关于Xpointer和Xlinks
类似于HTML中的Hyper Link. Xpointer 和Xlink用于联结其他的XML文档和其他XML文档中的部分,其中Xpointer相当于HTML中用于定位HTML文档子内容的锚!不过其联结水平更强大。比如,在bookstore中,可以定位到有一个作者叫金庸,书中有四大恶人的那本书,在HTML中,这是不可能实现的。
当然,XML的发展促使了许多的新技术的出现,其他的还有RDF、Xfrom等等,其中的大部分W3C只是给出了建议,还没有形成正式的标准,有些内容甚至还处于讨论阶段。我们将密切注视着方面内容的变化。
XML 框架
所谓框架即Framework。XML是一个通用的标准。它不属于个人,认证它的也不是一家公司,而是W3C。那么为什么那么多的大公司纷纷趋指如鹜呢?各家公司互相竞争的是它的framework, 是它的Schema. XML framework是驾驭XML文件的结构,是一种高层次的结构控制。利用XML framework,可以把商业逻辑(business logic)分离出来,实现数据与计算的分离。目前著名的framework有Microsoft的Biztalk 以及联合国(UN/CEFACT)和OASIS联合于99年底推出了EBXML动议。相信在不久的将来会有许多的Framwork. 其中的一个问题就是在W3C中关于XML的很多东西还处于建议的时候,就推出framework,是不是一种冒险。不过,互联网的发展似乎就是这样
XML(eXtensible Markup Language, 可扩展标记语言)可以定义自己的一族标记。
XML是元语言。元语言本身能够创建一种语言,可以用来创建自己的标记。它是用来描述其他语言的语言。
例如我们创建一个自己定义的XML文档,在这个文档中保存一个公司一个月以来的销售记录。
该文档需要传到总公司,XML文档传到总公司后,解析器把它里面的数据读取出来,放到总公司的数据库中;同样,也可以从总公司的数据库中提取信息形成XML文档,下发到分公司。这种方式可以使数据跨越不同的硬件、软件、编程语言来更加简易快捷地生产、接收、存档各种各样的信息。在传输中的传输速度是比较快的,因此以XML格式交换数据可以轻而易举地合并不同来源的数据。
所谓的xml,就是eXtensible Markup Language, 翻译成中文就是“可扩展标识语言“,在国内很多人理解xml为html的简单扩展,这实际上是一种误解。尽管xml同html关系非常密切。
简单的说XML也就是word文档 是用来编文字的。
XML是被设计用来存储数据、携带数据和交换数据的。通过XML,可以在不兼容的系统之间交换数据,利用XML,纯文本文件可以用来存储数据。在不使用XML时,HTML用于显示数据,数据必须存储在HTML文件之内。XML不是为了显示数据而设计的,主要是用于交换数据,可以从HTML中分离数据,也可以用于存储数据,大量的数据可以存储到XML文件中或者数据库中,应用程序可以读写和存储数据,一般的程序可以显示数据。通过XML可以在HTML文件之外存储数据使用,也可以充分利用数据,可以用于创建新的语言XML是WAP和WML语言的母亲。如果开发者有足够的预见性,那么将来的应用程序都应该使用XML的形式来存储数据。xml是什么意思?
XML是一种格式,XML的前身是标准通用标记语言,是自IBM从60年代就开始发展的通用标记语言。它是一种简单的数据存储语言。
使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然可扩展标记语言占用的空间比二进制数据要占用更多的空间,但可扩展标记语言极其简单易于掌握和使用。
XML的宗旨传输数据的,而与其同属标准通用标记语言的HTML主要用于显示数据。事实上XML与其他数据表现形式最大的不同是:它极其简单。
XML的示例:
1、可以在可扩展标记语言文件的内容包括几乎所有的万国码Unicode字符,元素和属性的名称也可以由非ascii字符组成。
2、标签由小于号(<)和大于号(>)之间的文本组成,例如< tag >。
3、starttag(外语:starttag)表示一个特定区域的开始,例如< start >。
4、 结束标记(外语:end tag)定义了字段的结束,它基本上与开始标记相同,只是小于号后面有一个斜杠(/)。例如,< !——结束- - - >。
是EXtensible Markup Language的缩写.扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。
XML与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等,XML仅仅是展示数据。事实上XML与其他数据表现形式最大的不同是:他极其简单。这是一个看上去有点琐细的优点,但正是这点使XML与众不同。
XML的简单使其易于在任何应用程序中读写数据,这使XML很快成为数据交换的唯一公共语言,虽然不同的应用软件也支持其它的数据交换格式,但不久之后他们都将支持XML,那就意味着程序可以更容易的与Windows、Mac OS, Linux以及其他平台下产生的信息结合,然后可以很容易加载XML数据到程序中并分析他,并以XML格式输出结果。
XML全称EXtensible Markup Language,翻译为可扩展置标语言,可扩展标记语言或可延伸 标示语言,是一种置标语言。
XML的前身是SGML(The Standard Generalized Markup Language),是自IBM从60年代就开始发展的GML(Generalized Markup Language)
同HTML一样, XML (可扩展标识语言)是通用标识语言标准(SGML)的一个子集,它是描述网络上的数据内容和结构的标准。尽管如此,XML不象HTML,HTML仅仅提供了在页面上显示信息的通用方法(没有上下文相关和动态功能) ,XML则对数据赋予上下文相关功能,它继承了SGML的大部分功能,却使用了不太复杂的技术。.
为了使得SGML显得用户友好,XML重新定义了SGML的一些内部值和参数,去掉了大量的很少用到的功能,这些繁杂的功能使得SGML在设计网站时显得复杂化。XML保留了SGML的结构化功能,这样就使得网站设计者可以定义自己的文档类型,XML同时也推出一种新型文档类型,使得开发者也可以不必定义文档类型。
因为XML是W3C制定的,XML的标准化工作由W3C的XML工作组负责,该小组成员由来自各个地方和行业的专家组成,他们通过email交流对XML标准的意见,并提出自己的看法 (www.w3.org/TR/WD-xml)。因为XML 是个公共格式, (它不专属于任何一家公司),你不必担心XML技术会成为少数公司的盈利工具,XML不是一个依附于特定浏览器的语言。
“可扩展标记语言”(xml)
提供一种描述结构化数据的方法。与主要用于控制数据的显示和外观的
html
标记不同,xml
标记用于定义数据本身的结构和数据类型。
xml
使用一组标记来描绘数据元素。每个元素封装可能十分简单也可能十分复杂的数据。您可以定义一组无限制的
xml
标记。例如,您可以定义一些
xml
标记来声明订单中的数据,如价格、税收、发货地址、帐单地址等等。由于
xml
标记在整个单位中以及跨单位采用,因此来自各种不同数据存储区的数据将更容易交换和操作。
xml
是一种简单、与平台无关并被广泛采用的标准。xml
相对于
html
的优点是它将用户界面与结构化数据分隔开来。这种数据与显示的分离使得集成来自不同源的数据成为可能。客户信息、订单、研究结果、帐单付款、病历、目录数据及其他信息都可以转换为
xml。
可扩展标识语言,extendsable markup language
可以去看看http://tech.china.com/zh_cn/netschool/homepage/xml/4007/20000823/227946.htm
sql2005数据库引擎引入了新的
xml
数据类型,这种数据类型支持在数据库中存储
xml
文档和片段。xml
实例可以存储在用
xml
类型创建的列、存储过程参数或变量中。
所谓的xml,就是eXtensible Markup Language, 翻译成中文就是“可扩展标识语言“,在国内很多人理解xml为html的简单扩展,这实际上是一种误解。尽管xml同html关系非常密切。
XML与SGML、HTML的关系。
SGML、HTML是XML的先驱。SGML是指“通用标识语言标准”(Standard Generalized Markup Language), 它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文档的结构,主要用于大量高度结构化数据的防卫区和其他各种工业领域,利于分类和索引。同XML相比,定义的功能很强大,缺点是它不适用于Web数据描述,而且SGML软件价格非常价格昂贵。 HTML相信大家都比较熟悉,即“HyperText Markup Language” (超文本标识语言),它的优点是比较适合web 页面的开发。但它有一个缺点是标记相对少,只有固定的标记集如.等。缺少sgml 的柔性和适应性。不能支持特定领域的标记语言,如对数学、化学、音乐等领域的表示支持较少。举个例子来说,开发者很难在web pape 上表示数学公式、化学分子式和乐谱。
Xml 结合了sgml 和html的优点并消除其缺点。Xml 仍然被认为是一种sgml语言。比sgml要简单,但能实现sgml的大部分的功能。1996年的夏天,Sun Microssystem的John Bosak开始开发W3C SGML工作组(现在称为xml工作组)。他们的目标是创建一种sgml,使其在Web中,既能利用Sgml的长处,又保留html的简单性。现在目标基本达到。
二、Xml 的发展。
在专业领域中,出现了Web标记语言的许多项目,著名的有CML—化学标记语言,由Peter Murray_Rust 开发,同时开发了第一个通用xml 浏览器Jumbo . 在数学方面,包括IBM公司再内都在致力开发MathML 1997年四月,出版了xll的第一个版本。当xll完整实现时,将比html 和当前浏览器所达到的链接水平更复杂,更强大。1997年8月,Microsoft公司和Inso公司引入xsl.由于xml是纯结构和语义的,需要描述单个元素格式方法。可以使用html的CSS;另一种方案是xsl. 1998年1月,microsoft 公司出版发行了msxsl程序。可以利用xsl表和xml文档创建能被IE4 识别的html页面。1998年2月,W3C发布了xml1.0的正式版本。最近一年多来,由于网络应用的飞速发展,xml的发展非常迅猛。出现了DOM(Document Object Model),XSLT(XSL Transformation)等新名词,xml的应用软件也有了飞速的发展,Microsoft、IBM、Breeze、Stilo等公司纷纷推出了自己的或解析器,或开发平台。在MicrosoftIBM、HP等大公司的推动下,目前有两个著名的xml的研究组织,分别是biztalk.com和oasis.org,由他们向W3C提出标准的建议。其中biztalk是有Microsoft牵头组织的,有趣的是Microsoft公司同时参加了oaisis,不过不同于IBM、HP等著名大公司,他的年费只交10万美元,用Microsoft发言人的话就是“一切视oasis的发展而定!“,言下之意就是如果oasis制定的标准抵触Microsoft的应用,一场标准大战不可避免。
什么是XML
首先XML是一种元标记语言,所谓“元标记”就是开发者可以根据自己的需要定义自己的标记,比如开发者可以定义如下标记,任何满足xml命名规则的名称都可以标记,这就为不同的应用程序打开了的大门。HTML是一种预定义标记语言,它只认识诸如,
等已经定义的标记,对于用户自己定义的标记是不认识的。 第二xml是一种语义/结构化语言。它描述了文档的结构和语义。举个例子,在和html中,要描述一本书,可以如下表示:
- publisher_name ;;;;
- isbn_number
-
在xml中,同样的数据表示为
book name author name publisher name
isbn_number
从上面的对比,可以看出,xml的文档是有明确语义并且是结构化的。 XML是一种通用的数据格式从低级的角度看,xml是一种简单的数据格式,是纯100%的ASCII文本,而ASCII的抗破坏能力是很强的。不象压缩数据和java对象,只要破坏一个数据文件数据就不可阅读。 从高级的角度看,是一种自描述语言。
XML可利用于数据交换 主要是因为XML表示的信息独立于平台的,这里的平台即可以理解为不同的应用程序也可以理解为不同的操作系统;它描述了一种规范,利用它Microsoft的word文档可以和Adobe 的Acrobat交换信息,可以和数据库交换信息。
XML表示的结构化数据。
对于大型复杂的文档,xml 是一种理想语言,不仅允许指定文档中的词汇,还允许指定元素之间的关系。比如可以规定一个author元素必须有一个name子元素。可以规定企业的业务必须有包括什么子业务。
XML文档。 XML文档有DTD和XML文本组成,所谓DTD(Document Type Definition ),简单的说就是一组标记符的语法规则.,表明XML文本是怎么样组织的,比如DTD可以表示一个必须有一个子标记
, 可以有或者没有子标记
等等。当然一个简单的XML文本可以没有DTD。下面是一个简单的xml文本。
haha
其中以?开始并结尾的是进程说明。Standalone表示外围设备。这里外围设备可以理解为该XML文本没有应用其他的文件。因为XML文件可以外部应用DTD等外部数据。
XML 涉及的一些技术。
XSL和CSS。
通过前面的介绍可以知道,XML可以定义信息的内容,却没有定义信息该如何表达,这实际上就是XML的长处,它把内容和形式分离了,这样同一个内容可以有不同的表达,相信随着XML应用的提高,那种“建议你使用800x600分辨率“的会消失。而XML内容的表达就是通过XSL(XML Style Language)和CSS(Cascading Style Sheets 层叠样式表)来实现。拿前一个例子来说,可以为该xml文档定义的样式表(XSL)如下:这就是一个简单的 XSL文件,利用msxsl可以生成html文件。如下
haha 至于CSS,在HTML文件中就已经有它的影子了,例如 H1 { font-size: 12pt; font-weight: bold; } 这就是一段简单的CSS的文本。
XML Schema 尽管DTD给标记的使用加了限制,但是对于XML的自动处理却还需要更加严格更全面的工具。比如DTD不能保证一个标记的某个属性的值必须不为负值,于是出现了XML Schema,由于XML Schema(不同于DTD)本身也是一个正规的XML文档,因此开发者可以使用相同的工具处理其同其他的XML的信息交换。最初XML Schema由Microsoft提出,W3C 的专家们经过充分讨论和论证,在1999年的2月,发布了一个需求定义,说明Schema必须符合的要求,5月,W3C完成并发布了Schema的定义。目前,IE5中的XML解析器能够根据文档类型定义(DTD)或XML Schema解析XML
关于DOM DOM即Document Object Model, 它把XML文档的内容实现为一个对象模型,简单的说就是应用程序如何访问XML文档,W3C的DOM Level 1 定义了如何实现属性、方法、事件等。
关于XSLT XSLT即XML Stylesheet Language Transformation. 在写本文时正式标准还没有正式形成,在1999年的11月通过了《XSLT》。XSLT是一种用来进行XML文档间相互转化的语言。简单的说,我们知道不同的开发者对于各自的应用会用不同的XML文档,利用XSLT我们可以从一个已经定义的XML文档抽取我们需要的数据,组成不同的形式,可以是XML, HTML和各种不同的SCRIPT。
关于Xpointer和Xlinks
类似于HTML中的Hyper Link. Xpointer 和Xlink用于联结其他的XML文档和其他XML文档中的部分,其中Xpointer相当于HTML中用于定位HTML文档子内容的锚!不过其联结水平更强大。比如,在bookstore中,可以定位到有一个作者叫金庸,书中有四大恶人的那本书,在HTML中,这是不可能实现的。
当然,XML的发展促使了许多的新技术的出现,其他的还有RDF、Xfrom等等,其中的大部分W3C只是给出了建议,还没有形成正式的标准,有些内容甚至还处于讨论阶段。我们将密切注视着方面内容的变化。
XML 框架
所谓框架即Framework。XML是一个通用的标准。它不属于个人,认证它的也不是一家公司,而是W3C。那么为什么那么多的大公司纷纷趋指如鹜呢?各家公司互相竞争的是它的framework, 是它的Schema. XML framework是驾驭XML文件的结构,是一种高层次的结构控制。利用XML framework,可以把商业逻辑(business logic)分离出来,实现数据与计算的分离。目前著名的framework有Microsoft的Biztalk 以及联合国(UN/CEFACT)和OASIS联合于99年底推出了EBXML动议。相信在不久的将来会有许多的Framwork. 其中的一个问题就是在W3C中关于XML的很多东西还处于建议的时候,就推出framework,是不是一种冒险。不过,互联网的发展似乎就是这样,关于framwwork的发展,我们将拭目以待。xml是什么格式的文件
文件这两个字在我们日常生活中出现的频率特别高,文件有很多种格式,比如我们所熟知的Word还有PPT等,这些都是非常常见的文件格式,那么今天小编就要给大家介绍一种大家不怎么熟悉的XML文件,这个人间是什么呢?下面来看看小编今天的分享吧。本次操作以dell电脑为例,具体操作步骤如下:第一:XML文件是XML(可扩展标记语言)数据文件。它的格式与.HTML文档非常相似,但使用自定义标记来定义对象和每个对象中的数据。XML文件可以被认为是基于文本的数据库。XML根据所描述的数据描述内容。例如,放置在标记标记内的单词“phonenum”可以指示随后的数据是电话号码。XML文件可以完全由程序处理为数据,也可以与其他计算机上的类似数据一起存储,也可以像HTML文件一样显示。例如,根据接收计算机中的应用程序如何处理电话号码,可以存储,显示或拨打它。
.XML是什么文件?
XML是一种格式,XML的前身是标准通用标记语言,是自IBM从60年代就开始发展的通用标记语言。它是一种简单的数据存储语言。
使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然可扩展标记语言占用的空间比二进制数据要占用更多的空间,但可扩展标记语言极其简单易于掌握和使用。
XML的宗旨传输数据的,而与其同属标准通用标记语言的HTML主要用于显示数据。事实上XML与其他数据表现形式最大的不同是:它极其简单。
扩展资料:
XML的示例:
1、可以在可扩展标记语言文件的内容包括几乎所有的万国码Unicode字符,元素和属性的名称也可以由非ascii字符组成;
2、标签由包围在一个小于号(<)和一个大于号(>)之间的文本组成,例如;
3、起始标签(外国语:starttag)表示一个特定区域的开始,例如;
4、结束标签(外国语:end tag)定义了一个区域的结束,除了在小于号之后紧跟着一个斜线(/)外,和起始标签基本一样,例如;
5、标准通用标记语言还定义了标签的特性“属性”,它们是定义在小于号和大于号之间的值,例如中的“源”特性。如果你觉得它看起来很熟悉的话,应该知道,基于标准通用标记语言的语言的最著名实现就是原始的HTML。
参考资料来源:百度百科-xml格式
.XML,表示可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语。是英文Extensible Markup Language 的缩写,其定义可描述为:
1、是一种很像HTML的标记语言;
2、其设计宗旨是传输数据,而不是显示数据;
3、标签没有被预定义,需要自行定义标签;
4、被设计为具有自我描述性。
XML自1996年开始初具雏形,并向W3C(全球信息网联盟)提案,1998年2月发布为W3C的标准(XML1.0)。XML的前身是SGML(The Standard Generalized Markup Language)。
而人们对SGML进行了简化并衍生出HTML。为了解决HTML扩充性、弹性、易读性均不佳等问题,根据HTML的发展经验,产生出一套在使用中规则严谨但却简单的描述数据语言:XML。
扩展阅读:
1、XML和HTML的不同点:
XML扩展性比HTML强;
XML的语法比HTML严格;
2、由于XML的扩展性强,它需要稳定的基础规则来支持扩展。它严格的规则为:
起始和结束的标签相匹配;
嵌套标签不能相互嵌套;
区分大小写。
3、目的不同:
XML 被设计用来传输和存储数据,其焦点是数据的内容;
HTML 被设计用来显示数据,其焦点是数据的外观。
参考资料:百度百科-XML
.XML文件一般指里面写有可扩展标记语言的文件。
XML:可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它被设计用来传输和存储数据。
XML,是Extensible Markup Language 的缩写。在.NET框架中XML是非常重要的一部分,它用于描述数据,是当前处理结构化文档信息的有力工具。XML与操作系统、编程语言的开发平台无关,可以实现不同系统之间的数据交互!
XML 是各种应用程序之间进行数据传输的最常用的工具。
扩展资料:
XML语言的特点:
1、XML中的每对标记通常被称为节点,他们是成对出现而且必须是成对出现的,用来描写这个节点存储的内容。在节点中存储该节点的信息。
2、XML中用于描述数据的各个节点可以自由扩展,也就是说XML用于描述信息的标记不是固定不变的。例如可以在一个demo中对每个员工的信息进行详细扩展,如:身高,体重等。
3、XML文件中的节点区分大小写,例如和
,即使两个节点存储的内容相同 ,XML也认为他们是两个不同的节点。
参考资料来源:百度百科-可扩展标记语言
xml文件
XML:Extentsible Markup Language(可扩展标记语言)的缩 写,是用来定义其它语言的一种元语言,其前身是SGML(标准通用标记语言)。它没有标签集(tag set),也没有语法规则(grammatical rule),但 是它有句法规则(syntax rule)。任何XML文档对任何类型的应用以及正确 的解析都必须是良构的(well-formed),即每一个打开的标签都必须有匹配的结束标签,不得含有次序颠倒的标签,并且在语句构成上应符合技术规范的要求。 XML文档可以是有效的(valid),但并非一定要求有效。所谓有效文档是指其符合其文档类型定义(DTD)的文档。如果一个文档符合一个模式(schema)的规定 ,那么这个文档是"模式有效的(schema valid)"。
简单地说,你的电脑上安装过了windows media player,使用wmp的时候可以设置windows media player与某些设备同步,比如和光驱同步可以实现自动播放音乐光盘等等。使用设备设置同步的时候,会放置一个名为WMPInfo.xml的文件,以跟踪同步关系。如果删除了该文件,将导致windows media player丢失其与设备的同步关系信息。
XML是EXtensible
Markup
Language的缩写XML是一种类似于HTML的标记语言XML是用来描述数据的XML的标记不是在XML中预定义的,你必须定义自己的标记XML使用文档类型定义(DTD)或者模式(Schema)来描述数据XML使用DTD或者Schema后就是自描述的语言XML和HTML的主要区别是什么XML是用来存放数据的XML不是HTML的替代品,XML和HTML是两种不同用途的语言。XML是被设计用来描述数据的,重点是:什么是数据,如何存放数据。HTML是被设计用来显示数据的,重点是:显示数据以及如何显示数据更好上面。HTML是与显示信息相关的,
XML则是与描述信息相关的。
.XML一般是配置文件,格式正规的xml文档、有xml声明语句、有且仅有一个根元素,标签大小写敏感,属性值用双引号,标签成对,空标签关闭,元素正确嵌套。
扩展资料:
xml是当前处理结构化文档信息中相当给力的技术,xml有助于在服务器之间穿梭结构化数据,这使得开发人员更加得心应手的控制数据的存储和传输。
Xml用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。Xml是标准通用标记语言(SGML)的子集,非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。图片>
起始>
标记>