一、開源情況
datafaker是一個(gè)大批量測(cè)試數(shù)據(jù)和流測(cè)試數(shù)據(jù)生成工具,兼容python2.7和python3.4+,歡迎下載使用。github地址為:
https://github.com/gangly/datafaker
文檔同步更新在github
二、工具產(chǎn)生背景
在軟件開發(fā)測(cè)試過程,經(jīng)常需要測(cè)試數(shù)據(jù)。這些場(chǎng)景包括:
- 后端開發(fā)
新建表后,需要構(gòu)造數(shù)據(jù)庫(kù)測(cè)試數(shù)據(jù),生成接口數(shù)據(jù)提供給前端使用。 - 數(shù)據(jù)庫(kù)性能測(cè)試
生成大量測(cè)試數(shù)據(jù),測(cè)試數(shù)據(jù)庫(kù)性能 - 流數(shù)據(jù)測(cè)試
針對(duì)kafka流數(shù)據(jù),需要不斷定時(shí)生成測(cè)試數(shù)據(jù)寫入kafka
常用方法是人工手動(dòng)造幾條數(shù)據(jù)寫入數(shù)據(jù)庫(kù),這種方法帶來的弊端是
- 浪費(fèi)工時(shí)
針對(duì)表的不同數(shù)據(jù)類型的字段,需要構(gòu)造不同數(shù)據(jù) - 數(shù)據(jù)量小
如果需要構(gòu)造大量數(shù)據(jù),手動(dòng)造數(shù)據(jù)無(wú)能為力 - 不夠準(zhǔn)確
比如需要構(gòu)造郵箱(滿足一定格式),電話號(hào)碼(確定的數(shù)字位數(shù)),ip地址(固定格式),年齡(不能為負(fù)數(shù),有大小范圍)等。這些測(cè)試數(shù)據(jù)有一定的限制或規(guī)律,手工構(gòu)造可能不能滿足數(shù)據(jù)范圍或一些格式要求而導(dǎo)致后端程序報(bào)錯(cuò) - 多表關(guān)聯(lián)
手動(dòng)造的數(shù)據(jù)量較小,在多個(gè)表中用主鍵不一定能關(guān)聯(lián)上,或者關(guān)聯(lián)出來沒數(shù)據(jù) - 動(dòng)態(tài)隨機(jī)寫入
比如針對(duì)流數(shù)據(jù),需要隨機(jī)每隔幾秒鐘寫入kafka?;蛘邉?dòng)態(tài)隨機(jī)插入mysql,手工操作相對(duì)麻煩,而且不好統(tǒng)計(jì)寫入數(shù)據(jù)條數(shù)
datafaker是一個(gè)多數(shù)據(jù)源測(cè)試數(shù)據(jù)構(gòu)造工具,可以模擬產(chǎn)生大部分常用數(shù)據(jù)類型,具有以下功能:
- 多種數(shù)據(jù)類型
包括常見數(shù)據(jù)庫(kù)字段類型(整型、浮點(diǎn)型、字符型)、自定義類型(IP地址,郵箱,身份證號(hào)碼等) - 模擬多表關(guān)聯(lián)數(shù)據(jù)
通過制定某些字段為枚舉類型(從指定的數(shù)據(jù)列表里面隨機(jī)選擇),這樣在數(shù)據(jù)量多的情況下能保證多表Join能關(guān)聯(lián)上,查詢到數(shù)據(jù) - 支持批數(shù)據(jù)和流數(shù)據(jù)生成,可指定數(shù)據(jù)產(chǎn)生間隔時(shí)間
- 支持多種數(shù)據(jù)輸出方式,包括屏幕打印、文件和遠(yuǎn)程數(shù)據(jù)源
- 支持多種數(shù)據(jù)源。目前支持關(guān)系型數(shù)據(jù)庫(kù)、Hive、Kafka、Hbase、ES。后面將擴(kuò)展到Mongo,Kudu等數(shù)據(jù)源
- 可指定輸出格式,目前支持text,json
三、軟件架構(gòu)
datafaker是用python編寫,支持python2.7,python3.4+。已經(jīng)發(fā)布在pypi上,https://pypi.org/search/?q=datafaker。

datafaker.png
架構(gòu)圖完整的畫出了工具的執(zhí)行過程,從圖可知工具經(jīng)歷了5個(gè)模塊:
- 參數(shù)解析器。解析用戶從終端命令行輸入的命令。
- 元數(shù)據(jù)解析器。用戶可以指定元數(shù)據(jù)來自本地文件或者遠(yuǎn)程數(shù)據(jù)庫(kù)表。解析器獲取到文件內(nèi)容后按照規(guī)則將文本內(nèi)容解析成表字段元數(shù)據(jù)和數(shù)據(jù)構(gòu)造規(guī)則。
- 數(shù)據(jù)構(gòu)造引擎。構(gòu)造引擎根據(jù)元數(shù)據(jù)解析器產(chǎn)生的數(shù)據(jù)構(gòu)造規(guī)則,模擬產(chǎn)生不同類型的數(shù)據(jù)。
- 數(shù)據(jù)路由。根據(jù)不同的數(shù)據(jù)輸出類型,分成批量數(shù)據(jù)和流數(shù)據(jù)生成。流數(shù)據(jù)可指定產(chǎn)生頻率。然后將數(shù)據(jù)轉(zhuǎn)換成用戶指定的格式輸出到不同數(shù)據(jù)源中。
- 數(shù)據(jù)源適配器。適配不同數(shù)據(jù)源,將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)源中。
四、安裝流程
首先確保已經(jīng)安裝python和pip
有兩種安裝方法:
方法1.下載安裝
下載源碼壓縮包,解壓后,到datafaker目錄里面執(zhí)行:
python setup.py install
方法2.直接安裝(此方法使用若有問題,請(qǐng)用方法1安裝)
pip install datafaker