jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API，可通過DOM，CSS以及類似于jQuery的操作方法來取出和操作數(shù)據(jù)。
以下內(nèi)容來自http://www.open-open.com/jsoup/parse-body-fragment.htm（有刪改）

[toc]

入門

1.解析和遍歷一個HTML文檔

如何解析一個HTML文檔：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

(更詳細內(nèi)容可查看解析一個HTML字符串.)

其解析器能夠盡最大可能從你提供的HTML文檔來創(chuàng)見一個干凈的解析結(jié)果，無論HTML的格式是否完整。比如它可以處理：

沒有關(guān)閉的標簽 (比如： Lorem Ipsum parses to Lorem Ipsum)
隱式標簽 (比如. 它可以自動將<td>Table data</td>包裝成<table><tr><td>?)
創(chuàng)建可靠的文檔結(jié)構(gòu)（html標簽包含head 和 body，在head只出現(xiàn)恰當(dāng)?shù)脑兀?/p>

一個文檔的對象模型

文檔由多個Elements和TextNodes組成 (以及其它輔助nodes：詳細可查看：nodes package tree).
其繼承結(jié)構(gòu)如下：Document繼承Element繼承Node. TextNode繼承Node.
一個Element包含一個子節(jié)點集合，并擁有一個父Element。他們還提供了一個唯一的子元素過濾列表。

輸入

2、解析一個HTML字符串

存在問題

來自用戶輸入，一個文件或一個網(wǎng)站的HTML字符串，你可能需要對它進行解析并取其內(nèi)容，或校驗其格式是否完整，或想修改它。怎么辦？jsonu能夠幫你輕松解決這些問題

解決方法

使用靜態(tài)Jsoup.parse(String html)方法或Jsoup.parse(String html, String baseUri)示例代碼：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

描述

parse(String html, String baseUri)這方法能夠?qū)⑤斎氲腍TML解析為一個新的文檔 (Document），參數(shù) baseUri 是用來將相對 URL 轉(zhuǎn)成絕對URL，并指定從哪個網(wǎng)站獲取文檔。如這個方法不適用，你可以使用parse(String html)方法來解析成HTML字符串如上面的示例。.

只要解析的不是空字符串，就能返回一個結(jié)構(gòu)合理的文檔，其中包含(至少)一個head和一個body元素。

一旦擁有了一個Document，你就可以使用Document中適當(dāng)?shù)姆椒ɑ蛩割?code>[Element]和[Node]中的方法來取得相關(guān)數(shù)據(jù)。

3、解析一個body片斷

問題

假如你有一個HTML片斷 (比如. 一個div包含一對p標簽; 一個不完整的HTML文檔) 想對它進行解析。這個HTML片斷可以是用戶提交的一條評論或在一個CMS頁面中編輯body部分。

辦法

使用Jsoup.parseBodyFragment(String html)方法.

String html = "<div><p>Lorem ipsum.</p>";
Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();

說明

parseBodyFragment 方法創(chuàng)建一個空殼的文檔，并插入解析過的HTML到body元素中。假如你使用正常的 [Jsoup.parse(String html)](http://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse(java.lang.String) "Parse HTML into a Document.") 方法，通常你也可以得到相同的結(jié)果，但是明確將用戶輸入作為 body片段處理，以確保用戶所提供的任何糟糕的HTML都將被解析成body元素。

[Document.body()](http://jsoup.org/apidocs/org/jsoup/nodes/Document.html#body() "Accessor to the document's body element.") 方法能夠取得文檔body元素的所有子元素，與 doc.getElementsByTag("body")相同。

保證安全Stay safe

假如你可以讓用戶輸入HTML內(nèi)容，那么要小心避免跨站腳本攻擊。利用基于 [Whitelist] 的清除器和 clean(String bodyHtml, Whitelist whitelist)方法來清除用戶輸入的惡意內(nèi)容。

4.從一個URL加載一個Document

存在問題

你需要從一個網(wǎng)站獲取和解析一個HTML文檔，并查找其中的相關(guān)數(shù)據(jù)。你可以使用下面解決方法：

解決方法

使用 Jsoup.connect(String url)方法:

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

說明

connect(String url) 方法創(chuàng)建一個新的 Connection, 和 get() 取得和解析一個HTML文件。如果從該URL獲取HTML時發(fā)生錯誤，便會拋出 IOException，應(yīng)適當(dāng)處理。

Connection 接口還提供一個方法鏈來解決特殊請求，具體如下：

Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

這個方法只支持Web URLs (http和https 協(xié)議); 假如你需要從一個文件加載，可以使用 parse(File in, String charsetName) 代替。

5.從一個文件加載一個文檔

問題

在本機硬盤上有一個HTML文件，需要對它進行解析從中抽取數(shù)據(jù)或進行修改。

辦法

可以使用靜態(tài) Jsoup.parse(File in, String charsetName, String baseUri) 方法：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

說明

parse(File in, String charsetName, String baseUri) 這個方法用來加載和解析一個HTML文件。如在加載文件的時候發(fā)生錯誤，將拋出IOException，應(yīng)作適當(dāng)處理。

baseUri 參數(shù)用于解決文件中URLs是相對路徑的問題。如果不需要可以傳入一個空的字符串。

另外還有一個方法parse(File in, String charsetName) ，它使用文件的路徑做為 baseUri。這個方法適用于如果被解析文件位于網(wǎng)站的本地文件系統(tǒng)，且相關(guān)鏈接也指向該文件系統(tǒng)。

數(shù)據(jù)抽取

6.使用DOM方法來遍歷一個文檔

問題

你有一個HTML文檔要從中提取數(shù)據(jù)，并了解這個HTML文檔的結(jié)構(gòu)。

方法

將HTML解析成一個Document之后，就可以使用類似于DOM的方法進行操作。示例代碼：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

說明

Elements這個對象提供了一系列類似于DOM的方法來查找元素，抽取并處理其中的數(shù)據(jù)。具體如下：

查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(),firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)
元素數(shù)據(jù)
attr(String key)獲取屬性attr(String key, String value)設(shè)置屬性
attributes()獲取所有屬性
id(), className() andclassNames()
text()獲取文本內(nèi)容text(String value) 設(shè)置文本內(nèi)容
html()獲取元素內(nèi)HTMLhtml(String value)設(shè)置元素內(nèi)的HTML內(nèi)容
outerHtml()獲取元素外HTML內(nèi)容
data()獲取數(shù)據(jù)內(nèi)容（例如：script和style標簽)
tag() and tagName()
操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

jsoup-htm解析器

jsoup-htm解析器

入門

1.解析和遍歷一個HTML文檔

如何解析一個HTML文檔：

一個文檔的對象模型

輸入

2、解析一個HTML字符串

存在問題

解決方法

描述

3、解析一個body片斷

問題

辦法

說明

保證安全Stay safe

4.從一個URL加載一個Document

存在問題

解決方法

說明

5.從一個文件加載一個文檔

問題

辦法

說明

數(shù)據(jù)抽取

6.使用DOM方法來遍歷一個文檔

問題

方法

說明

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

jsoup-htm解析器

入門

1.解析和遍歷一個HTML文檔

如何解析一個HTML文檔：

一個文檔的對象模型

輸入

2、 解析一個HTML字符串

存在問題

解決方法

描述

3、解析一個body片斷

問題

辦法

說明

保證安全Stay safe

4.從一個URL加載一個Document

存在問題

解決方法

說明

5.從一個文件加載一個文檔

問題

辦法

說明

數(shù)據(jù)抽取

6.使用DOM方法來遍歷一個文檔

問題

方法

說明

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2、解析一個HTML字符串