PHP正則處理遇到的幾個(gè)問題

首先給出幾個(gè)問題。

  1. 將html代碼中的js內(nèi)容過濾掉。

  2. 將html代碼中table標(biāo)簽中間的內(nèi)容(<table>內(nèi)容</table>)前后加上特殊字符#。

  3. 取出img標(biāo)簽alt屬性的值。

html代碼如下:

<html>
<head>
       <title>test</title>
</head>
<body>
       <script type="text/javascript">
              data = 'test data';
       </script>
       <p><img src="http://test.com/1.jpg" alt="this's a description."></p>
       <table>....</table>
       <p><img src='http://test.com/2.jpg' alt='other'></p>
       <script>
              console.log('statics');
       </script>
</body>
</html>

第一個(gè)問題,很容易寫出下面代碼:

$html = preg_replace('~<script.*>.+</script>~U', '', $html);

但執(zhí)行的時(shí)候發(fā)現(xiàn)并沒有過濾掉js代碼。

原因是點(diǎn)號(hào)(.)元字符匹配除換行符以外的任意字符。js代碼是多行的,所以用點(diǎn)號(hào)無法匹配,這個(gè)坑很淺,我卻掉進(jìn)去了。

解決方法:使用模式修飾符s,此修飾符可以讓點(diǎn)號(hào)匹配換行符。

$html = preg_replace('~<script.*>.+</script>~Us', '', $html);

執(zhí)行結(jié)果:


第二問題,可以使用php的preg_replace_callback函數(shù)。

$html = preg_replace_callback(
    '~<table>(.+)</table>~Us',
    function ($matches) {
        return '#' . $matches[1] . '#';
    },
   $html);

第三個(gè)問題:

preg_match_all('~<img.*alt=[\'"](.+)[\'"]~U', $html, $matches);

執(zhí)行結(jié)果:

發(fā)現(xiàn)第一個(gè)匹配出錯(cuò)。由于alt屬性值可能由雙引號(hào)或單引號(hào)包括的,所以在正則中使用[\’”],但如果alt屬性值中有單引號(hào)或雙引號(hào)就會(huì)匹配不全,此時(shí)可以使用反向引用來解決,好吧,我竟然忘了反向引用。

preg_match_all('~<img.*alt=([\'"])(.+)\1~U', $html, $matches);

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容