它在哪里?
它是什么?
一個(gè)html解析者
- 它是一個(gè) java 庫(kù):負(fù)責(zé)處理html相關(guān)的東西。
- 它提供了便捷的api去抽取和處理數(shù)據(jù)。類似 dom,cssjquery 中的方法:簡(jiǎn)單直觀。
- 實(shí)現(xiàn)了html5 的要求標(biāo)準(zhǔn),像瀏覽器一樣將html轉(zhuǎn)化成dom。
如一個(gè)瀏覽器一樣, 它可以做出如下的行為:
- 從 url,file,string 中獲取和解析成html。
- 通過(guò)DOM遍歷或者CSS選擇器來(lái)找出數(shù)據(jù)。
- 操作html的元素,屬性和文本。
- 通過(guò)用戶提交的白名單,來(lái)預(yù)防XSS攻擊。
- 可輸出干凈的html。
- html有許多變種(規(guī)則不規(guī)范,程序員代碼寫的比較狂野),jsoup解析這樣的html會(huì)將其解析成合理的dom樹(shù)
文檔結(jié)構(gòu)

doc