數(shù)據(jù)下載


AI Meets Beauty

Perfect Half Million Beauty Product Image Recognition Challenge


分析:比賽給的數(shù)據(jù)集是一個(gè)csv文件,包括了名稱和下載地址,因此首先要下載數(shù)據(jù)。
數(shù)據(jù)集總共包含520k張圖像,來自14個(gè)電商網(wǎng)站。

data.csv
Dataset

數(shù)據(jù)下載腳本如下

# -*- coding: utf-8 -*-
# download.py --下載數(shù)據(jù)集

from __future__ import print_function 
import os, csv
from skimage import io
from multiprocessing import Pool

def signal_handler(signum, frame, img_url):
    raise Exception('Time out--', img_url)

def getFile(url):
    url = url.split(',')
    imgname, imgurl = url[0], url[1].strip('"')
    imgformat = '.jpg'
    
    try: 
        image = io.imread(imgurl)
        io.imsave("./dataset/" + imgname + imgformat, image)
    except Exception as e:
        failures = open('failure.txt', 'a')
        print (imgname + ' ' + imgurl)
        failures.write(imgname + ' ' + imgurl + '\n')
    
if __name__ == "__main__":
    os.chdir(os.path.join(os.getcwd()))
    if not os.path.exists('./dataset'):
        os.mkdir('./dataset')
    
    with open ('data.csv', 'r') as f:
        lines=f.readlines()
        csvf = lines[:]
        #csvf.extend(lines[:])
        parallel_num = 10
        line_num = len(csvf)
        p = Pool(parallel_num)
        for i in range(int(line_num/parallel_num)):
            p.map(getFile, csvf[i*parallel_num:i*parallel_num+parallel_num])
    f.close()
    # failures.close()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容