在线视频 ri,午夜成人中文在线,性爱第一页欧美

如何獲取html中正文的內(nèi)容

假設(shè)我們要獲取下面html標(biāo)簽中的內(nèi)容：

<p>橋邊姑娘</p><p>你的芬芳</p><p>我把你放心上</p><p>不想讓你流浪</p>

<p><span style="white-space: normal;">王者榮耀</span></p>

第一段是獲取標(biāo)簽內(nèi)部的數(shù)據(jù)，第二個(gè)是獲取標(biāo)簽中的數(shù)據(jù)，其中span標(biāo)簽中有style屬性值。

使用過正則表達(dá)式的同學(xué)肯定知道，上面兩種情況其實(shí)都是一種情況，我們要獲取的是尖括號(hào)括起來的一對(duì)標(biāo)簽中間的數(shù)據(jù)，起始標(biāo)簽形如<x>，結(jié)束標(biāo)簽形如</x>，這里的x表示的html標(biāo)簽。

定義正則表達(dá)式

此外，我們還需要考慮起始標(biāo)簽中包含style的數(shù)據(jù)，另外特殊的 標(biāo)簽，對(duì)實(shí)際獲取數(shù)據(jù)無意義，也需要過濾掉。

通過上面的分析，我們可以如下正則表達(dá)式：

<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*?>

具體處理過程

數(shù)據(jù)預(yù)處理

在使用正則表達(dá)式處理之前，我們先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，比如style和
標(biāo)簽：

/**
 * 替換掉html標(biāo)簽里面的style內(nèi)容
 *
 * @param content
 * @return
 */
public static String replaceStyle(String content) {
    if (content == null || content.length() == 0) {
        return content;
    }
    String regEx = " style=\"(.*?)\"";
    Pattern p = Pattern.compile(regEx);
    Matcher m = p.matcher(content);
    if (m.find()) {
        content = m.replaceAll("");
    }
    return content;
}

/**
 * 移除掉</br>標(biāo)簽
 *
 * @param src
 * @return
 */
public static String removeBrTag(String src) {
    if (src != null && !src.isEmpty()) {
        src = src.replaceAll("<br/>", "");
    }
    return src;
}

針對(duì)標(biāo)簽嵌套的情況

針對(duì)多個(gè)標(biāo)簽嵌套的情況進(jìn)行處理，比如 王者榮耀，在經(jīng)過預(yù)處理和正則匹配的后結(jié)果是 王者榮耀，需要手工移除掉前面的起始標(biāo)簽，對(duì)應(yīng)的方法如下：

/**
 * 針對(duì)多個(gè)標(biāo)簽嵌套的情況進(jìn)行處理
 * 比如 <p><span style="white-space: normal;">王者榮耀</span></p>
 * 預(yù)處理并且正則匹配完之后結(jié)果是 <span>王者榮耀
 * 需要手工移除掉前面的起始標(biāo)簽
 * @param content
 * @return
 */
public static String replaceStartTag(String content) {
    if (content == null || content.length() == 0) {
        return content;
    }
    String regEx = "<[a-zA-Z]*?>([\\s\\S]*?)";
    Pattern p = Pattern.compile(regEx);
    Matcher m = p.matcher(content);
    if (m.find()) {
        content = m.replaceAll("");
    }
    return content;
}

具體匹配方法

/**
 * 匹配html標(biāo)簽，例如"<p>xxx</p>"這種格式
 */
private static Pattern HTML_TAG_PATTERN = Pattern.compile("<[a-zA-Z]+.*?>([\\s\\S]*?)</[a-zA-Z]*?>");

/**
 * 獲取html中的數(shù)據(jù)
 * @param htmlString
 * @return
 */
public static List<String> getResultsFromHtml(String htmlString) {
    List<String> results = new ArrayList<>();
    // 數(shù)據(jù)預(yù)處理
    htmlString = replaceStyle(removeBrTag(htmlString));
    if (htmlString != null && htmlString.length() > 0) {
        Matcher imageTagMatcher = HTML_TAG_PATTERN.matcher(htmlString);
        // 針對(duì)多個(gè)并列的標(biāo)簽的情況
        while (imageTagMatcher.find()) {
            String result = "";
            // group(1)對(duì)應(yīng)正則表達(dá)式中的圓括號(hào)括起來的數(shù)據(jù)
            result = imageTagMatcher.group(1).trim();

            // 針對(duì)多個(gè)標(biāo)簽嵌套的情況進(jìn)行處理
            if (result != null && result.length() > 0) {
                result = replaceStartTag(result);
            }

            results.add(result);
        }
    }
    return results;
}

測(cè)試驗(yàn)證

測(cè)試方法如下：

public static void main(String[] args) {
    String ss = "<p>橋邊姑娘</p><p>你的芬芳</p><p>我把你放心上</p><p>不想讓你流浪</p>";
    List<String> results = getResultsFromHtml(ss);
    System.out.println("results:" + results);

    String ss1 = "<p><span style=\"white-space: normal;\">王者榮耀</span></p>";
    List<String> results1 = getResultsFromHtml(ss1);
    System.out.println("results1:" + results1);
}

output:

results:[橋邊姑娘, 你的芬芳, 我把你放心上, 不想讓你流浪]
results1:[王者榮耀]

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

正則表達(dá)式匹配html標(biāo)簽，獲取標(biāo)簽內(nèi)容

正則表達(dá)式匹配html標(biāo)簽，獲取標(biāo)簽內(nèi)容

如何獲取html中正文的內(nèi)容

定義正則表達(dá)式

具體處理過程

數(shù)據(jù)預(yù)處理

針對(duì)標(biāo)簽嵌套的情況

具體匹配方法

測(cè)試驗(yàn)證

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

正則表達(dá)式匹配html標(biāo)簽，獲取標(biāo)簽內(nèi)容

如何獲取html中正文的內(nèi)容

定義正則表達(dá)式

具體處理過程

數(shù)據(jù)預(yù)處理

針對(duì)標(biāo)簽嵌套的情況

具體匹配方法

測(cè)試驗(yàn)證

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av