1. 多平臺(tái)圖片搜索和下載器
項(xiàng)目地址:https://github.com/CharlesPikachu/imagedl
項(xiàng)目文檔:https://imagedl.readthedocs.io/en/latest/
項(xiàng)目簡(jiǎn)介:imagedl 是一個(gè)用 Python 編寫的圖片搜索與下載工具,可以從多個(gè)主流圖片網(wǎng)站(如百度、必應(yīng)、谷歌、360、Pixabay、Yandex、DuckDuckGo、搜狗等)批量獲取圖片。它提供統(tǒng)一的 ImageClient 接口,支持設(shè)置搜索數(shù)量、線程數(shù)、工作目錄、請(qǐng)求頭與代理等參數(shù),方便做大規(guī)模圖片爬取與數(shù)據(jù)集構(gòu)建。用戶可以通過(guò) pip install pyimagedl 一鍵安裝,也可以直接從 GitHub 倉(cāng)庫(kù)克隆源碼安裝。安裝后既可以在命令行中直接運(yùn)行 imagedl 進(jìn)行交互式下載,也可以在代碼中進(jìn)行更靈活的調(diào)用,比如只做搜索或在搜索后按需下載。項(xiàng)目還提供在線文檔和 API 運(yùn)行健康檢測(cè)與 Demo 頁(yè)面,方便快速了解各個(gè)圖片源當(dāng)前是否可用。如果你需要從多平臺(tái)自動(dòng)化收集圖片數(shù)據(jù)(如訓(xùn)練集、素材庫(kù)等),imagedl 是一個(gè)輕量但功能完整的解決方案。
效果展示:

2. 多平臺(tái)音頻搜索和下載器
項(xiàng)目地址:https://github.com/CharlesPikachu/musicdl
項(xiàng)目文檔:https://musicdl.readthedocs.io/zh/latest/
項(xiàng)目介紹:musicdl 是一個(gè)用純 Python 實(shí)現(xiàn)的輕量級(jí)音樂(lè)下載工具,可以統(tǒng)一地搜索、解析并下載來(lái)自多個(gè)在線音樂(lè)與音頻站點(diǎn)的音頻資源。它提供統(tǒng)一的 MusicClient 抽象,既可以在命令行里交互式使用,也可以在代碼中通過(guò) .search 和 .download 等接口做二次開(kāi)發(fā)。工具支持自定義下載目錄、線程數(shù)、搜索條數(shù)、代理配置等參數(shù),并允許注入登錄 Cookie,以利用已有會(huì)員賬號(hào)獲取更高音質(zhì)或更多搜索結(jié)果。對(duì)于部分只提供音頻流或加密文件的站點(diǎn),musicdl 會(huì)自動(dòng)調(diào)用本地多媒體工具鏈(如解碼、解密、封裝)完成音頻文件整理。此外,它還內(nèi)置 WhisperLRC 模塊,可以為沒(méi)有歌詞的音頻自動(dòng)生成歌詞文件,方便做歌詞分析等應(yīng)用。總的來(lái)說(shuō),如果你想快速搭一個(gè)“音樂(lè)搜索 + 批量下載 + 簡(jiǎn)單處理”的 Python 工作流,musicdl 是一個(gè)上手成本很低、擴(kuò)展性很強(qiáng)的選擇。
效果展示:

3. 海量代理構(gòu)建工具
項(xiàng)目地址:https://github.com/CharlesPikachu/freeproxy
項(xiàng)目文檔:https://freeproxy.readthedocs.io/en/latest/
項(xiàng)目介紹:FreeProxy 是一個(gè)用 Python 編寫的免費(fèi)代理收集與管理工具,可以持續(xù)從網(wǎng)絡(luò)上抓取并更新各類免費(fèi)代理列表。它會(huì)從不同的代理網(wǎng)站解析出統(tǒng)一格式的代理信息(協(xié)議、IP、端口等),并通過(guò) ProxiedSession / ProxiedSessionClient 封裝成可直接用于 requests 的會(huì)話,自動(dòng)帶代理、自動(dòng)切換和重試。項(xiàng)目提供了完整的測(cè)試腳本,可以一鍵檢測(cè)每個(gè)代理源的有效性、展示示例代理,并在終端里輸出對(duì)比表格,方便你選擇質(zhì)量較好的來(lái)源。同時(shí),它還提供在線頁(yè)面展示 24 小時(shí)內(nèi)最新代理列表,便于快速查看當(dāng)前哪些來(lái)源狀況較好。在實(shí)際使用中,你可以很方便地把 pyfreeproxy 集成到自己的爬蟲、數(shù)據(jù)采集、反爬繞過(guò)或其他網(wǎng)絡(luò)請(qǐng)求腳本中,讓程序自動(dòng)獲取和輪換免費(fèi)代理。此外,庫(kù)支持配置抓取頁(yè)數(shù)、代理源列表以及關(guān)閉多余日志輸出等參數(shù),既適合本地調(diào)試,也適合長(zhǎng)時(shí)間在服務(wù)器環(huán)境中穩(wěn)定運(yùn)行。
效果展示:
4. 其他
https://github.com/CharlesPikachu/videodl/