測(cè)試數(shù)據(jù)生成工具datafaker

一、開源情況

datafaker是一個(gè)大批量測(cè)試數(shù)據(jù)和流測(cè)試數(shù)據(jù)生成工具,兼容python2.7和python3.4+,歡迎下載使用。github地址為:

https://github.com/gangly/datafaker

文檔同步更新在github

二、工具產(chǎn)生背景

在軟件開發(fā)測(cè)試過程,經(jīng)常需要測(cè)試數(shù)據(jù)。這些場(chǎng)景包括:

  • 后端開發(fā)
    新建表后,需要構(gòu)造數(shù)據(jù)庫(kù)測(cè)試數(shù)據(jù),生成接口數(shù)據(jù)提供給前端使用。
  • 數(shù)據(jù)庫(kù)性能測(cè)試
    生成大量測(cè)試數(shù)據(jù),測(cè)試數(shù)據(jù)庫(kù)性能
  • 流數(shù)據(jù)測(cè)試
    針對(duì)kafka流數(shù)據(jù),需要不斷定時(shí)生成測(cè)試數(shù)據(jù)寫入kafka

常用方法是人工手動(dòng)造幾條數(shù)據(jù)寫入數(shù)據(jù)庫(kù),這種方法帶來的弊端是

  • 浪費(fèi)工時(shí)
    針對(duì)表的不同數(shù)據(jù)類型的字段,需要構(gòu)造不同數(shù)據(jù)
  • 數(shù)據(jù)量小
    如果需要構(gòu)造大量數(shù)據(jù),手動(dòng)造數(shù)據(jù)無(wú)能為力
  • 不夠準(zhǔn)確
    比如需要構(gòu)造郵箱(滿足一定格式),電話號(hào)碼(確定的數(shù)字位數(shù)),ip地址(固定格式),年齡(不能為負(fù)數(shù),有大小范圍)等。這些測(cè)試數(shù)據(jù)有一定的限制或規(guī)律,手工構(gòu)造可能不能滿足數(shù)據(jù)范圍或一些格式要求而導(dǎo)致后端程序報(bào)錯(cuò)
  • 多表關(guān)聯(lián)
    手動(dòng)造的數(shù)據(jù)量較小,在多個(gè)表中用主鍵不一定能關(guān)聯(lián)上,或者關(guān)聯(lián)出來沒數(shù)據(jù)
  • 動(dòng)態(tài)隨機(jī)寫入
    比如針對(duì)流數(shù)據(jù),需要隨機(jī)每隔幾秒鐘寫入kafka?;蛘邉?dòng)態(tài)隨機(jī)插入mysql,手工操作相對(duì)麻煩,而且不好統(tǒng)計(jì)寫入數(shù)據(jù)條數(shù)

datafaker是一個(gè)多數(shù)據(jù)源測(cè)試數(shù)據(jù)構(gòu)造工具,可以模擬產(chǎn)生大部分常用數(shù)據(jù)類型,具有以下功能:

  • 多種數(shù)據(jù)類型
    包括常見數(shù)據(jù)庫(kù)字段類型(整型、浮點(diǎn)型、字符型)、自定義類型(IP地址,郵箱,身份證號(hào)碼等)
  • 模擬多表關(guān)聯(lián)數(shù)據(jù)
    通過制定某些字段為枚舉類型(從指定的數(shù)據(jù)列表里面隨機(jī)選擇),這樣在數(shù)據(jù)量多的情況下能保證多表Join能關(guān)聯(lián)上,查詢到數(shù)據(jù)
  • 支持批數(shù)據(jù)和流數(shù)據(jù)生成,可指定數(shù)據(jù)產(chǎn)生間隔時(shí)間
  • 支持多種數(shù)據(jù)輸出方式,包括屏幕打印、文件和遠(yuǎn)程數(shù)據(jù)源
  • 支持多種數(shù)據(jù)源。目前支持關(guān)系型數(shù)據(jù)庫(kù)、Hive、Kafka、Hbase、ES。后面將擴(kuò)展到Mongo,Kudu等數(shù)據(jù)源
  • 可指定輸出格式,目前支持text,json

三、軟件架構(gòu)

datafaker是用python編寫,支持python2.7,python3.4+。已經(jīng)發(fā)布在pypi上,https://pypi.org/search/?q=datafaker

datafaker.png

架構(gòu)圖完整的畫出了工具的執(zhí)行過程,從圖可知工具經(jīng)歷了5個(gè)模塊:

  • 參數(shù)解析器。解析用戶從終端命令行輸入的命令。
  • 元數(shù)據(jù)解析器。用戶可以指定元數(shù)據(jù)來自本地文件或者遠(yuǎn)程數(shù)據(jù)庫(kù)表。解析器獲取到文件內(nèi)容后按照規(guī)則將文本內(nèi)容解析成表字段元數(shù)據(jù)和數(shù)據(jù)構(gòu)造規(guī)則。
  • 數(shù)據(jù)構(gòu)造引擎。構(gòu)造引擎根據(jù)元數(shù)據(jù)解析器產(chǎn)生的數(shù)據(jù)構(gòu)造規(guī)則,模擬產(chǎn)生不同類型的數(shù)據(jù)。
  • 數(shù)據(jù)路由。根據(jù)不同的數(shù)據(jù)輸出類型,分成批量數(shù)據(jù)和流數(shù)據(jù)生成。流數(shù)據(jù)可指定產(chǎn)生頻率。然后將數(shù)據(jù)轉(zhuǎn)換成用戶指定的格式輸出到不同數(shù)據(jù)源中。
  • 數(shù)據(jù)源適配器。適配不同數(shù)據(jù)源,將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)源中。

四、安裝流程

首先確保已經(jīng)安裝python和pip
有兩種安裝方法:

方法1.下載安裝
下載源碼壓縮包,解壓后,到datafaker目錄里面執(zhí)行:

python setup.py install

方法2.直接安裝(此方法使用若有問題,請(qǐng)用方法1安裝)

pip install datafaker
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容