xpath獲取標(biāo)簽內(nèi)的包括所有下級標(biāo)簽的所有文字內(nèi)容

xpath獲取標(biāo)簽內(nèi)的包括所有下級標(biāo)簽的所有文字內(nèi)容

現(xiàn)有html源碼如下:

<div>
    <ul class="1">
        <li>1</li>
        <li>12<a>bcd</a></li>
        <li>123</li>
        <li>1234</li>
    </ul>
    <ul class="2">
        <li>2</li>
        <li>22<a>efg</a></li>
        <li>223</li>
        <li>2234</li>
    </ul>
</div>

想要獲取ul class="1"下所有的文字內(nèi)容,即

1
12 bcd
123
1234

可通過xpath的string()函數(shù)實(shí)現(xiàn)

from lxml import etree

a = """<div>
    <ul class="1">
        <li>1</li>
        <li>12<a>bcd</a></li>
        <li>123</li>
        <li>1234</li>
    </ul>
    <ul class="2">
        <li>2</li>
        <li>22<a>bcd</a></li>
        <li>223</li>
        <li>2234</li>
    </ul>
</div>
    """
b = etree.HTML(a)
c = b.xpath('string(//ul)')
print(c)
        1
        12bcd
        123
        1234

結(jié)果如上(沒有去掉空白字符),如果想要獲取ul class="2"下所有的文字內(nèi)容,可通過如下3種方式:

from lxml import etree

a = """<div>
    <ul class="1">
        <li>1</li>
        <li>12<a>bcd</a></li>
        <li>123</li>
        <li>1234</li>
    </ul>
    <ul class="2">
        <li>2</li>
        <li>22<a>bcd</a></li>
        <li>223</li>
        <li>2234</li>
    </ul>
</div>
    """
b = etree.HTML(a)
# c = b.xpath('string(//ul[2])')
# c = b.xpath('string(//ul[@class="2"])')
c = b.xpath('//ul')[1].xpath('string(.)')
print(c)
  1. 直接選取ul的第二個(gè)children
c = b.xpath('string(//ul[2])')
  1. 通過class屬性定位
c = b.xpath('string(//ul[@class="2"])')
  1. 先獲取儲存所有ul的列表,再從列表中獲取第二個(gè)ul,.表示當(dāng)前節(jié)點(diǎn)
b.xpath('//ul')[1].xpath('string(.)')
xpath中text()和string()以及data()的區(qū)別

XPath中的text()和string()區(qū)別

名稱 定義 用法
text() node test 僅僅返回所指元素的文本內(nèi)容
string() 函數(shù) 返回所指元素的所有節(jié)點(diǎn)文本內(nèi)容,這些文本講會被拼接成一個(gè)字符串
data() 函數(shù)(可保留數(shù)據(jù)類型) 和string()函數(shù)通用,不建議經(jīng)常使用,會影響XPath的性能
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5? 答:HTML5是最新的HTML標(biāo)準(zhǔn)。 注意:講述HT...
    kismetajun閱讀 28,771評論 1 45
  • ¥開啟¥ 【iAPP實(shí)現(xiàn)進(jìn)入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個(gè)線程,因...
    小菜c閱讀 7,295評論 0 17
  • 淼是我上大學(xué)時(shí)的閨蜜,我們一個(gè)宿舍住了四年。我以前的好幾篇文章中都提到過她。 淼是遼寧女孩,個(gè)高、苗...
    塞上綠葉閱讀 227評論 0 2
  • 今天讀到一篇微信文章,特別的感同身受,像我這種又懶又慫的人,天天喊著口號,我要進(jìn)步,我要讀書,我要通過讀書改變自己...
    一諾的家閱讀 244評論 0 2
  • 在2016年的扣籃大賽上,拉文和戈登聯(lián)袂為我們上演了一出扣籃界的華山論劍。他們的出現(xiàn)讓本已逐漸黯淡的扣籃大賽再次燃...
    籃球行為大賞閱讀 903評論 0 1

友情鏈接更多精彩內(nèi)容