HTML和XML

html和xml都属于SGML(标准通用标记语言)的分支

html–程序型标记(html5不属于SGML)

xml–描述型语言(1998成为标准)

两者都是W3C维护

XML

xml:Extensible Markup Language,可扩展标记语言,xml只代表数据本身,而不包含任何样式,所以也称为一种描述语言

xml的作用

  1. 实现不同平台之间的数据交互(webservice)
  2. xml可以用于一些应用程序的配置文件(tomcat、servlet、web.xml)

xml的作用

  1. xml指令:<?xml version=”1.0” encoding=”UTF-8”>
  2. 文档类型定义<!DOCTYPE>
  3. 文档元素部分

xml指令

主要描述xml版本(目前只有1.0),编码,文档是否定义为一个独立的文件。

文档类型(DTD,XSD):规范文档中允许出现的标记,属性,以及标记之间的关系。

文档内容构成部分:标签、属性、文本。规范:标记必须成对出现,严格区分大小写

DOM解析

需要将被解析的文档完整的加载到内存中,解析为一颗倒置的树,可以通过解析器任意获取

文档树种的节点

优点:

适合解析较小的文档,解析速度快,可以任意搜索节点,并行搜索

缺点:

一次性加载整个文档,会消耗大量内存,无法解析较大文档

SAX解析:

​ 基于事件驱动的方式,一流媒体方式解析解析,在读取到一部分内容之后立即开始解析,直

到读取到文档的结束标记后停止解析。

优点:

可以解析较大文档,解析效率快,一边读一边解析

缺点:

无法任意加载搜索节点,比较难实现并行搜索