jsoup

它在哪里?

  1. github
  2. 官網(wǎng)

它是什么?

一個(gè)html解析者

  • 它是一個(gè) java 庫(kù):負(fù)責(zé)處理html相關(guān)的東西。
  • 它提供了便捷的api去抽取和處理數(shù)據(jù)。類似 dom,cssjquery 中的方法:簡(jiǎn)單直觀。
  • 實(shí)現(xiàn)了html5 的要求標(biāo)準(zhǔn),像瀏覽器一樣將html轉(zhuǎn)化成dom。

如一個(gè)瀏覽器一樣, 它可以做出如下的行為:

  1. 從 url,file,string 中獲取和解析成html。
  2. 通過(guò)DOM遍歷或者CSS選擇器來(lái)找出數(shù)據(jù)。
  3. 操作html的元素,屬性和文本。
  4. 通過(guò)用戶提交的白名單,來(lái)預(yù)防XSS攻擊。
  5. 可輸出干凈的html。
  6. html有許多變種(規(guī)則不規(guī)范,程序員代碼寫的比較狂野),jsoup解析這樣的html會(huì)將其解析成合理的dom樹(shù)

文檔結(jié)構(gòu)

地址

doc
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Java爬蟲入門簡(jiǎn)介(二) —— Jsoup解析HTML頁(yè)面 原文鏈接:http://blog.csdn.net/...
    葡小萄家的貓閱讀 5,342評(píng)論 0 10
  • 最近做了個(gè)獲取Kindle特價(jià)書的app(https://www.coolapk.com/apk/167660),...
    ifadai閱讀 3,365評(píng)論 0 15
  • Jsoup學(xué)習(xí)筆記 在平常開(kāi)發(fā)中我們經(jīng)常需要去另外的網(wǎng)站去爬取一些數(shù)據(jù),對(duì)于正則不太懂又想偷懶的同學(xué)就可以使用Js...
    榨菜哥wjj閱讀 4,841評(píng)論 0 3
  • 一、什么是jsoup jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它...
    SheHuan閱讀 17,130評(píng)論 2 47
  • 結(jié)束了一段悠閑的考后時(shí)光,會(huì)議后勤工作已經(jīng)到了第四天,從開(kāi)始的緊張而期待,到慢慢的順應(yīng)和習(xí)慣,原來(lái)不過(guò)是三天罷了。...
    生椒麻味閱讀 208評(píng)論 2 2

友情鏈接更多精彩內(nèi)容