什么是XPath?
XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對(duì)元素和屬性進(jìn)行遍歷。在運(yùn)用到Python抓取時(shí)要先轉(zhuǎn)換為xml。
XML W3School官方文檔:http://www.w3school.com.cn/xml/index.asp
XPath W3School官方文檔:http://www.w3school.com.cn/xpath/index.asp
XPath 開發(fā)工具
1.開源的XPath表達(dá)式編輯工具:XMLQuire(XML格式文件可用)
2.Chrome插件 XPath Helper
3.Firefox插件 XPath Checker
選取節(jié)點(diǎn)
XPath 使用路徑表達(dá)式來選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和我們?cè)诔R?guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。
下面列出了最常用的路徑表達(dá)式:
| 表達(dá)式 | 描述 |
|---|---|
| nodename | 選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)。 |
| / | 從根節(jié)點(diǎn)選取。 |
| // | 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),而不考慮它們的位置。 |
| . | 選取當(dāng)前節(jié)點(diǎn)。 |
| .. | 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)。 |
| @ | 選取屬性。 |
在下面的表格中,我們已列出了一些路徑表達(dá)式以及表達(dá)式的結(jié)果:
| 路徑表達(dá)式 | 結(jié)果 |
|---|---|
| bookstore | 選取 bookstore 元素的所有子節(jié)點(diǎn)。 |
| /bookstore | 選取根元素 bookstore。注釋:假如路徑起始于正斜杠( / ),則此路徑始終代表到某元素的絕對(duì)路徑! |
| bookstore/book | 選取屬于 bookstore 的子元素的所有 book 元素。 |
| //book | 選取所有 book 子元素,而不管它們?cè)谖臋n中的位置。 |
| bookstore//book | 選擇屬于 bookstore 元素的后代的所有 book 元素,而不管它們位于 bookstore 之下的什么位置。 |
| //@lang | 選取名為 lang 的所有屬性。 |
謂語(Predicates) 謂語用來查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn),被嵌在方括號(hào)中。
在下面的表格中,我們列出了帶有謂語的一些路徑表達(dá)式,以及表達(dá)式的結(jié)果:
| 路徑表達(dá)式 | 結(jié)果 |
|---|---|
| /bookstore/book[1] | 選取屬于 bookstore 子元素的第一個(gè) book 元素。 |
| /bookstore/book[last()] | 選取屬于 bookstore 子元素的最后一個(gè) book 元素。 |
| /bookstore/book[last()-1] | 選取屬于 bookstore 子元素的倒數(shù)第二個(gè) book 元素。 |
| /bookstore/book[position()??] | 選取最前面的兩個(gè)屬于 bookstore 元素的子元素的 book 元素。 |
| //title[@lang] | 選取所有擁有名為 lang 的屬性的 title 元素。 |
| //title[@lang=’eng’] | 選取所有 title 元素,且這些元素?fù)碛兄禐?eng 的 lang 屬性。 |
| /bookstore/book[price>35.00] | 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大于 35.00。 |
| /bookstore/book[price>35.00]/title | 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00。 |
選取未知節(jié)點(diǎn) XPath 通配符可用來選取未知的 XML 元素。
| 通配符 | 描述 |
|---|---|
| * | 匹配任何元素節(jié)點(diǎn)。 |
| @* | 匹配任何屬性節(jié)點(diǎn)。 |
| node() | 匹配任何類型的節(jié)點(diǎn)。 |
| 路徑表達(dá)式 | 結(jié)果 |
|---|---|
| /bookstore/* | 選取 bookstore 元素的所有子元素。 |
| //* | 選取文檔中的所有元素。 |
| html/node()/meta/@* | 選擇html下面任意節(jié)點(diǎn)下的meta節(jié)點(diǎn)的所有屬性 |
| //title[@*] | 選取所有帶有屬性的 title 元素。 |
選取若干路徑 通過在路徑表達(dá)式中使用“|”運(yùn)算符,您可以選取若干個(gè)路徑。
在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:
| 路徑表達(dá)式 | 結(jié)果 | |
|---|---|---|
| //book/title | //book/price | 選取 book 元素的所有 title 和 price 元素。 |
| //title | //price | 選取文檔中的所有 title 和 price 元素。 |
| /bookstore/book/title | //price | 選取屬于 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。 |