正則表達式解析http的bodyContent輸出key-value

概述

近來一個同事給了一個文本要求寫一個正則表達式解析。
文本如下

bodyContent:----------------------------964864704429906130621362
Content-Disposition: form-data; name="messageid"

PO
----------------------------964864704429906130621362
Content-Disposition: form-data; name="method"

putPOData
----------------------------964864704429906130621362
Content-Disposition: form-data; name="timestamp"

2022-02-16 13:48:19
----------------------------964864704429906130621362
Content-Disposition: form-data; name="format"

json
----------------------------964864704429906130621362
Content-Disposition: form-data; name="data"

{"xmldata":{"header":[{"CUSTOMERID":"201","EXPECTSTORAGEDATE":"","INOUTTYPE":1,"NOTES":"2019-2020下單提貨","ORDERNO":"1001A2100000002DSYYS","ORDERTYPE":"21-Cxx-01","POCREATIONTIME":"2022-02-16 11:08:24","POREFERENCE2":"","POREFERENCE4":"CD20122021600131","SUPPLIERID":"201S10068","SUPPLIER_NAME":"xxx股份有限公司","USERDEFINE2":"陳xx","USERDEFINE3":"0124011","WAREHOUSEID":"WH01","detailsItem":[{"CUSTOMERID":"201","LOTATT01":"","LOTATT02":"","LOTATT04":"","LOTATT06":"浙械注準20192400498","LOTATT07":"肌鈣蛋白I測定試劑盒(免疫熒光干式定量法)","LOTATT08":"N","NOTES":"","ORDEREDQTY":10,"ORDEREDQTY_EACH":10,"ORDERNO":"CD20122021600131","SKU":"694117919349","USERDEFINE1":"1001A2100000002DSYYT","USERDEFINE2":"1001A2100000002DSYYS"}]}]}}
----------------------------964864704429906130621362
Content-Disposition: form-data; name="OperationCode"

FLUXWMSJSAPI.operation
----------------------------964864704429906130621362--

這是一個http的body內(nèi)容塊,我稍微刪除了幾段,期望解析得到:
messageid:PO
method:putPOData
timestamp:2022-02-16 13:48:19
等。

思路

  1. 找出要匹配的文本塊,類似:
name="messageid"

PO

首先將要查找的部分用通配符替換,把要匹配的部分用括號括起來。

name="(\S+)"[\n\r]+([ \S]+)

其中:

\S 表示非換行符
\n\r 表示換行和回車符
+ 表示至少一次
因為timestamp和data的內(nèi)容部分的日期部分有空格,所以后面用到了[ \S]+
  1. 可以將正則表達式和文本拷貝到超好用的正則測試網(wǎng)站,輸出結果符合預期:

    image.png

    如果不合適就調(diào)整正則表達式,根據(jù)表達式全集去調(diào)整。

  2. 要得到代碼,可以使用正則表達式在線測試|菜鳥工具

    image.png

    需要稍作調(diào)整,
    比如javascript語言部分:

<script>
// 定義 正則 RegExp 對象
var pattern = new RegExp('name="(\\S+)"[\\n\\r]+([ \\S]+)',"g");
// 簡化寫法
// var pattern = /name="(\S+)"[\n\r]+([ \S]+)/g;

// 用 `` 括起長文本
var str = `
這里是長文本
`;

//console.log(str);
console.log(pattern);

// 匹配結果
var arr = null;
while(arr = pattern.exec(str)){
    console.log(arr[1]);
    console.log(arr[2]);
    console.log('\n\r');
}
</script>

用到了pattern.exec()和while循環(huán)。

php語言的寫法:

<?php
$str = '這里是長文本';
// 或者使用
$str = <<<heredoc
這里是長文本
heredoc;
$isMatched = preg_match_all('/name="(\S+)"[\n\r]+([ \S]+)/', $str, $matches);
var_dump($str, $isMatched, $matches);
// $isMatched 匹配數(shù)量
// $matches 匹配結果,二維數(shù)組
// $matches[0] 是最外層的字符串 $matches[1]匹配的第1個括號  $matches[2]匹配的第2個括號

用到長文本表示,preg_match_all()。

java語言:

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class ZhengzeTest {

    public static String txt2String(File file) {
        StringBuilder result = new StringBuilder();
        try {
            BufferedReader br = new BufferedReader(new FileReader(file));//構造一個BufferedReader類來讀取文件
            String s = null;
            while ((s = br.readLine()) != null) {//使用readLine方法,一次讀一行
                result.append(System.lineSeparator() + s);
            }
            br.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return result.toString();
    }

    public static void main(String[] args) {
        File file = new File("D:\\java\\code\\java-example\\src\\helloworld.txt");
        String str = txt2String(file);
//        System.out.println(str);

        String pattern = "name="(\\S+)"[\\n\\r]+([ \\S]+)";
        Pattern r = Pattern.compile(pattern);
        Matcher m = r.matcher(str);
        while (m.find()) { // 多個匹配結果,此處用while循環(huán)遍歷
//            System.out.println(m.group(0)); // 匹配的完整字符串
            System.out.println(m.group(1)); // 匹配的第1個括號的內(nèi)容,此處為key
            System.out.println(m.group(2)); // 匹配的第2個括號的內(nèi)容,此處為value
            System.out.println();
        }
    }
}

用到了文件操作,while。

得到期望的結果:


image.png
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容