利用XMLSpy編輯與約束XML文件操作
一、XML文件介紹
可擴展标記語言,标準通用标記語言的子集,簡稱XML。是一種用于标記電子文件使其具有結構性的标記語言。
XML文件格式是純文本格式,在許多方面類似于HTML,XML由XML元素組成,每個XML元素包括一個開始标記(<title>),一個結束标記(</title>)以及兩個标記之間的内容,例如,可以将XML元素标記為價格、訂單編号或名稱。标記是對文檔存儲格式和邏輯結構的描述。在形式上,标記中可能包括注釋、引用、字符數據段、起始标記、結束标記、空元素、文檔類型聲明( DTD)和序言。
XML文件的作用是可以定義數據交流的标準或系統配置參數,有一段時間預測是可以替代HTML的标簽語言,但是後來發展不理想,沒有成為HTML網頁的替代方案。但是XML文件在數據交流中還是非常有用的,尤其是在進行數據交流标準的定義中,不同用戶按事先約定好的XML标簽格式傳遞數據,雙方就可以交流數據。其規範性要強于json文件格式
具體規則如下:
1、必須有聲明語句。
XML聲明是XML文檔的第一句,其格式如下:
<?xml version="1.0" encoding="utf-8"?>
2、注意大小寫
在XML文檔中,大小寫是有區别的。"<P>"和"<p>"是不同的标記。注意在寫元素時,前後标記的大小寫要保持一緻。
3、XML文檔有且隻有一個根元素
XML文檔必須有一個根元素,就是緊接着聲明後面建立的第一個元素,其他元素都是這個根元素的子元素,根元素完全包括文檔中其他所有的元素。根元素的起始标記要放在所有其他元素的起始标記之前;根元素的結束标記要放在所有其他元素的結束标記之後。例如
<?xml version="1.0" encoding="utf-8"?>
<data>
XXXXXX
</data>
4、屬性值使用引号
在HTML代碼裡面,屬性值可以加引号,也可以不加。但是XML規定,所有屬性值必須加引号(可以是單引号,也可以是雙引号,建議使用雙引号),否則将被視為錯誤。
<?xml version="1.0" encoding="utf-8"?>
<data name="school_data">
XXXXXX
</data>
5、所有的标記必須有相應的結束标記
在HTML中,标記可以不成對出現,而在XML中,所有标記必須成對出現,有一個開始标記,就必須有一個結束标記,否則将被視為錯誤。
<?xml version="1.0" encoding="utf-8"?>
<data name=”school_data”>
<school name=”ncist”>
<myclass name="計算機B191">
<student id="001">
<realname>張一</realname>
<sex>男</sex>
<age>21</age>
</student>
</myclass>
</school>
<school name=”pku”>
<myclass name="物聯網B191">
<student id="001">
<realname>王一</realname>
<sex>女</sex>
<age>19</age>
</student>
</myclass>
</school>
</data>
6、所有的空标記也必須被關閉
空标記是指标記對之間沒有内容的标記,比如"<img></img>"等标記。在XML中,規定所有的标記必須有結束标記。
二、XMLSpy軟件介紹
XMLSpy 是來自Altova的一款方便實用,功能強大的XML(标準通用标記語言的子集)編輯器。軟件支持WYSWYG,支持Unicode、多字符集,支持Well-formed和Validated兩種類型的XML文檔,支持NewsML等多種标準XML文檔的編輯,軟件在原來的基礎上增加了幾個很有用的功能,會讓XML代碼的處理更容易,是J2EE,.NET和數據庫開發人員不可缺少的高性能的開發工具。網上搜索需要的版本安裝就可以了。
XMLSpy 軟件界面
XMLSpy 編輯界面
三、利用XMLSpy軟件編輯XML文件
1、建立一個XML樣例文件
首先利用任意文本編輯器,建立一個普通的XML文件,裡面含有基本的XML數據結構。
<?xml version="1.0" encoding="UTF-8" ?>
<data>
<school name="ncist001">
<myclass name="計算機001">
<student id="001">
<realname>張一</realname>
<sex>男</sex>
<age>21</age>
</student>
</myclass>
</school>
</data>
2、利用XMLSpy軟件生成約束文件
利用XMLSpy軟件打開此文件,分析生成約束XSD文件。這步很關鍵。會提示是否應用約束等,基本都是默認确認就可以了。軟件自動在XML文件中建立約束的語句。這種方法可以快速生成約束文件,在此基礎上進行修改,能夠快速完成約束文件的生成。
帶有約束的XML文件
生成約束文件
xsd約束文件
3、修改約束文件xsd
軟件自動生成了約束文件xsd,但是這個約束文件有問題。主要是它采用扁平化方法,描述各個元素的層級關系。所謂扁平化描述,就是指描述本層和它所包含的下一層的元素。
注意點:
1 data是根目錄,它隻描述的data的類型,和含有的下一級子元素。具體下一級子元素的詳細描述,又采用扁平化方法在下面描述了
2 在描述中,元素的屬性數據類型都進行了約束,問題在于後面采用枚舉,限定的數據内容,因此需要把枚舉的内容删除掉。
3 在元素的描述中,沒有限定數據數量,默認就是1個。應該添加不限定。方法是自己寫,或者在添加一個元素,然後再生成約束文件,分析文件就可以了。
xsd約束文件
4、XML可視化
XMLSpy軟件提供了一種可視化結構展示,非常方便查看自己的XML約束條件。
xml可視化
5、約束文件地址修改
XML文件中引用的約束文件為絕對地址,不适合發布使用。把它修改為相對地址,xml和xsd文件在同一個文件夾中。
xsd地址
6、約束檢查
XML約束檢查,如果是用XMLSpy軟件,如果有問題,會報錯,不讓保存。根據提示錯誤,可以修改xsd文件或者XML文件
約束檢查結果
四、pycharm軟件中生成約束xsd文件
利用pycharm也可以生成XSD文件,但是文件的描述感覺沒有XMLSpy軟件描述的清晰,如下圖,不适用。Pycharm不能進行XML規則檢查。
pycharm編輯xml
xml文件
五、Python讀寫XML文件
常見的 XML 編程接口有 DOM 和 SAX,這兩種接口處理 XML 文件的方式不同,當然使用場合也不同。
Python 有三種方法解析 XML,就是SAX,DOM,以及 ElementTree。
1.SAX (simple API for XML )
Python 标準庫包含 SAX 解析器,SAX 用事件驅動模型,通過在解析XML的過程中觸發一個個的事件并調用用戶定義的回調函數來處理XML文件。
2.DOM(Document Object Model)
将 XML 數據在内存中解析成一個樹,通過對樹的操作來操作XML。
3.ElementTree(元素樹)
ElementTree就像一個輕量級的DOM,具有方便友好的API。代碼可用性好,速度快,消耗内存少。
注:因DOM需要将XML數據映射到内存中的樹,一是比較慢,二是比較耗内存,而SAX流式讀取XML文件,比較快,占用内存少,但需要用戶實現回調函數(handler)。
代碼如下:
# (1)讀取XML文件
import xml.etree.ElementTree as ET
tree = ET.parse('xml001.xml')
root = tree.getroot()
# (1.1)讀取XML字符串
# #root = ET.fromstring(country_data_as_string)
# #(2)獲取element object的四大屬性tag、text、attrib以及tail
# root.tag #root element的tag
# root.text #root element的text
# root.attrib #root element本身的attrib,dict格式的
# root.tail #root element的tag結束到下一個tag之間的text
print(root.tag)
print(root.text)
print(root.attrib)
print(root.tail)
# #(3)通過字典邏輯獲取樹形結構的text,表示第一個child的第二個child element的text
# root[0][1].text
print("---" * 10)
print(root[0][0][0].attrib, root[0][0][0][0].tag, root[0][0][0][0].text, root[0][0][0][1].text, root[0][0][0][2].text)
# (4)讀取XML數據
# Element.iter(tag) --遍曆當前element樹所有子節點的element(無論是子節點還是子節點的子節點),找到符合指定tag名的所有element,如果tag為空則遍曆當前element樹,返回所有節點element(包含當前父節點)。2.7和3.2之前的版本無此方法,可以用getiterator()代替。
# Element.findall(tag) --遍曆當前節點的直接子節點,找到符合指定tag名的element,返回由element組成的list
# Element.find(tag) --遍曆當前節點的直接子節點,找到符合指定tag名的第一個element
# Element.get(key) --在當前element中獲取符合指定attrib名的value
print("---" * 10)
mydata = root.iter("student")
for i in mydata:
# print(i.attrib["id"],i[0].text,i[1].text,i[2].text) #方法一
print(i.get("id"), i.find("realname").text, i.find("sex").text, i.find("age").text) # 方法二
# (5) 修改XML文件
# ElementTree.write(file, encoding="us-ascii", xml_declaration=None, default_namespace=None, method="xml") --将之前的修改寫入XML
# Element.set(key,value) --設置element attrib
# Element.append(subelement) --新增一個子element,extends(subelements),輸入參數必須是一個element序列
# Element.remove(subelement) --删除指定tag的element
for i in root.iter("student"):
x = i.find("realname")
if x.text == "張二":
x.text = "李二小"
print("修改數據:", x.text)
# (6)保存文件
tree.write("xml002.xml", encoding="utf-8", xml_declaration=True, default_namespace=None, method="xml")
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!