JuiceFS 2025:邁入千億文件規(guī)模,開源第五年持續(xù)高速增長(zhǎng)

又到了給大家匯報(bào)全年社區(qū)工作的時(shí)候。2025 年, JuiceFS 企業(yè)版發(fā)布的第九年,社區(qū)版的第五年。這一年,我們專注一如既往,打造一款高效易用的文件系統(tǒng)。

各項(xiàng)使用指標(biāo)延續(xù)了上一年的增長(zhǎng)勢(shì)頭,社區(qū)版數(shù)據(jù)量增長(zhǎng) 89%,超 1.3 EB;營(yíng)收連續(xù)第三年 100% 增長(zhǎng),是我們持續(xù)投入社區(qū)的堅(jiān)實(shí)保障。

2025 年,JuiceFS 社區(qū)版繼續(xù)聚焦通用性,尤其在支持各類 AI 場(chǎng)景的需求。發(fā)布了 Python SDK、增強(qiáng) Windows 客戶端可用性,并加強(qiáng)了對(duì)云原生生態(tài)的支持;此外,元數(shù)據(jù)引擎 SQL 和 TiKV 也進(jìn)行了針對(duì)性優(yōu)化。今年,團(tuán)隊(duì)與社區(qū)成員一道推動(dòng)了 JuiceFS 的持續(xù)迭代,共有 60 位貢獻(xiàn)者參與,新增了 305 個(gè) Issue,合并了 601 個(gè) PR。

在企業(yè)版的開發(fā)過(guò)程中,團(tuán)隊(duì)今年面臨的最大挑戰(zhàn)來(lái)自于超大規(guī)模數(shù)據(jù)的管理。隨著自動(dòng)駕駛等 AI 技術(shù)逐漸融入日常生活,數(shù)據(jù)規(guī)模的增長(zhǎng)是空前的,在千億文件級(jí)別下,元數(shù)據(jù)管理、數(shù)據(jù)一致性等方面的管理復(fù)雜度指數(shù)級(jí)增加。為應(yīng)對(duì)這些難題,企業(yè)版在元數(shù)據(jù)分區(qū)、網(wǎng)絡(luò)性能等核心特性上進(jìn)行了全面升級(jí)。上半年發(fā)布的企業(yè)版 5.2 已支持單卷千億規(guī)模,即將發(fā)布的 5.3 版本更將支持 5,000 億規(guī)模,讓用戶不必再為數(shù)據(jù)規(guī)模發(fā)愁,JuiceFS 的性能和穩(wěn)定性也都能夠穩(wěn)妥保障。

01 社區(qū)版:支持 Python SDK、 Windows 客戶端可用性大幅提升

JuiceFS 自開源以來(lái)已在企業(yè)生產(chǎn)環(huán)境中得到了長(zhǎng)時(shí)間的驗(yàn)證,核心功能逐步趨于穩(wěn)定。全年發(fā)布了 9 個(gè)版本,其中 1.3 版本是繼 2021 年開源以來(lái)的第四個(gè)重要版本,并作為長(zhǎng)期支持版本(LTS)。該版本的主要優(yōu)化包括:

  • 支持 Python SDK ,提升了 AI 和數(shù)據(jù)科學(xué)場(chǎng)景下的靈活性和性能;
  • Windows 客戶端的優(yōu)化,增強(qiáng)了工具支持和系統(tǒng)服務(wù)掛載能力;
  • 備份機(jī)制優(yōu)化,1 億文件備份分鐘級(jí)完成;
  • 集成 Apache Ranger,JuiceFS 支持大數(shù)據(jù)場(chǎng)景中的細(xì)粒度的權(quán)限管理;
  • 元數(shù)據(jù)引擎方面,SQL 和 TiKV 的性能提升,在超大規(guī)模場(chǎng)景下表現(xiàn)更加高效。

下半年,團(tuán)隊(duì)開始積極籌備 1.4 ,計(jì)劃新增多個(gè)特性,包括用戶和用戶組 Quota 支持、Redis 客戶端緩存支持、LRU 緩存支持、SMB/CIFS 支持、Hadoop Kerberos 支持、S3 Gateway 優(yōu)化、Sync 工具斷點(diǎn)續(xù)傳,數(shù)據(jù)商業(yè)算法加密支持,預(yù)讀策略優(yōu)化、批量刪除優(yōu)化和周邊工具優(yōu)化等 ,以進(jìn)一步提升系統(tǒng)的性能和穩(wěn)定性。

JuiceFS CSI Driver 在過(guò)去一年發(fā)布了 18 個(gè)版本,持續(xù)優(yōu)化 JuiceFS 在 Kubernetes 等環(huán)境中的存儲(chǔ)效率和穩(wěn)定性。新增功能包括卷路徑健康狀態(tài)檢測(cè)、同一文件系統(tǒng)共享 Mount Pod 功能、支持 Kubernetes 原生 Sidecar,以及 Dashboard 的 CacheGroup 管理。此外,還進(jìn)行了性能和可靠性優(yōu)化,不僅提升了穩(wěn)定性,同時(shí)改進(jìn)了多 Pod 配置和容器化應(yīng)用的兼容性。

JuiceFS Operator,新增了定時(shí)緩存預(yù)熱 功能,提升業(yè)務(wù)訪問(wèn)數(shù)據(jù)的性能;支持按副本部署的 CacheGroup,實(shí)現(xiàn)了緩存高可用性;并引入 Sync 功能,在 Kubernetes 環(huán)境中高效同步數(shù)據(jù),確保一致性。

02 企業(yè)版:?jiǎn)尉砬|規(guī)模文件,強(qiáng)勁性能與穩(wěn)定性保障

2025 年上半年,JuiceFS 企業(yè)版 5.2 版本發(fā)布,單個(gè)文件系統(tǒng)突破千億文件的規(guī)模,并顯著提升了超大規(guī)模集群的穩(wěn)定性和分布式緩存的網(wǎng)絡(luò)性能。為了實(shí)現(xiàn)這一目標(biāo),團(tuán)隊(duì)投入了大量時(shí)間和精力進(jìn)行優(yōu)化,特別是在處理超大數(shù)據(jù)集和高并發(fā)訪問(wèn)時(shí)的性能提升。該版本已在多個(gè)企業(yè)的生產(chǎn)環(huán)境中得到驗(yàn)證,單卷千億文件規(guī)模下保持 1 毫秒元數(shù)據(jù)時(shí)延水平。同時(shí),分布式緩存網(wǎng)絡(luò)性能優(yōu)化,TCP 網(wǎng)絡(luò)下大幅減少 CPU 開銷,同時(shí)提升網(wǎng)絡(luò)帶寬利用率。在 100 臺(tái) GCP 100Gbps 節(jié)點(diǎn)的環(huán)境下,聚合讀帶寬達(dá)到 1.2 TB/s,接近滿負(fù)荷利用 TCP/IP 網(wǎng)絡(luò)帶寬。

此外, Python SDK 實(shí)現(xiàn)了 fsspec 兼容、按需導(dǎo)入對(duì)象存儲(chǔ)文件,可以更方便的訪問(wèn)對(duì)象存儲(chǔ)存量數(shù)據(jù)、解決特殊場(chǎng)景中的讀放大問(wèn)題以及提升全局 QoS 能力,進(jìn)一步增強(qiáng)了系統(tǒng)的靈活性和性能。

多分區(qū)架構(gòu)是 JuiceFS 應(yīng)對(duì)千億文件規(guī)模的關(guān)鍵技術(shù)之一,保證了系統(tǒng)的高擴(kuò)展性和高并發(fā)處理能力。下半年我們的核心工作集中在 5.3 版本,對(duì)多分區(qū)架構(gòu)進(jìn)行了全面優(yōu)化,分區(qū)限制從 256 個(gè)提升至 1,024 個(gè),可實(shí)現(xiàn)單卷超過(guò) 5,000 億文件的存儲(chǔ)和訪問(wèn)需求。

這背后是一系列復(fù)雜的工作,包括系統(tǒng)化整理跨分區(qū)鏈接實(shí)現(xiàn),并實(shí)現(xiàn)后臺(tái)自檢機(jī)制,提升集群的可靠性與穩(wěn)定性;開發(fā)熱點(diǎn)監(jiān)測(cè)與自動(dòng)遷移工具,高效處理熱點(diǎn)問(wèn)題;優(yōu)化分布式緩存管理,減少緩存沖突并提高并發(fā)性能;此外,為了進(jìn)一步優(yōu)化分布式網(wǎng)絡(luò)的性能,在這個(gè)版本中首次引入了 RDMA 技術(shù),目前處于實(shí)驗(yàn)階段,測(cè)試結(jié)果顯示其在穩(wěn)定性和 CPU 使用率方面優(yōu)于 TCP 協(xié)議。5.3 版本將于 1 月發(fā)布,更多細(xì)節(jié),歡迎關(guān)注。

03 社區(qū)發(fā)展,第 5 年高速成長(zhǎng),數(shù)據(jù)總量超 1.3EB

目前,JuiceFS GitHub star 超 12.6K;JuiceFS 下載量突破了 5 萬(wàn)次,CSI Driver 的下載量超過(guò)了 500 萬(wàn)次;中文社區(qū)已經(jīng)有 10 個(gè)微信群組,Slack 英文社區(qū)也達(dá)千人。

社區(qū)版開源的第 5 年,也是快速增長(zhǎng)的第 5 個(gè)年頭。用戶上報(bào)數(shù)據(jù)顯示,JuiceFS 的各項(xiàng)關(guān)鍵數(shù)據(jù)延續(xù)了增長(zhǎng)趨勢(shì):

  • 文件系統(tǒng) 590K+,增長(zhǎng) 82%
  • 活躍客戶端 150K+,增長(zhǎng) 46%
  • 文件數(shù)量 4000 億+,增長(zhǎng) 43%
  • 數(shù)據(jù)總量 1.3EiB+,增長(zhǎng) 89%

今年,我們?cè)诙鄠€(gè)行業(yè)大會(huì)分享實(shí)踐,KCD 、開源年會(huì)、CommunityOverCode Asia 等,感謝這些大會(huì)主辦方對(duì) JuiceFS 的認(rèn)可;在海外行業(yè)會(huì)議也展露頭腳,參與了 KubeCon+CloudNative Con North America、Opensource Summit Japan、SNIA Developer Conference 等。

為了更好地為用戶提供支持,我們定期舉辦 Office Hours,介紹新功能、解答疑問(wèn);同時(shí),舉辦了 11 場(chǎng) Meetup,幫助不同行業(yè)的用戶更有信心地將 JuiceFS 應(yīng)用于生產(chǎn)環(huán)境。案例涵蓋自動(dòng)駕駛、生成式 AI、AI 基礎(chǔ)平臺(tái)、量化投資、生命醫(yī)藥等多個(gè)領(lǐng)域。(查看所有案例

特別感謝以下今年參與分享的用戶,他們的實(shí)踐經(jīng)驗(yàn)為社區(qū)提供了寶貴的參考:

  1. 丁聰,Lepton AI,加速 AI 訓(xùn)推:構(gòu)建多租戶、低延遲云存儲(chǔ)平臺(tái)
  2. 孫瑋,中國(guó)科學(xué)院計(jì)算所,基于 JuiceFS 的大模型訓(xùn)推平臺(tái)存儲(chǔ)演進(jìn)之路
  3. 鄭澤東,百圖生科,基于 JuiceFS 構(gòu)建生命科學(xué)大模型存儲(chǔ)平臺(tái),成本降 90%
  4. 吳松林,攜程,穩(wěn)定且高性價(jià)比的大模型存儲(chǔ):攜程 10PB 級(jí) JuiceFS 工程實(shí)踐
  5. 唐義凡,合合信息,基于 JuiceFS 構(gòu)建統(tǒng)一存儲(chǔ),支撐 PB 級(jí) AI 訓(xùn)練
  6. 繆昌新,階躍星辰,如何利用 JuiceFS 打造高效經(jīng)濟(jì)的大模型存儲(chǔ)平臺(tái)
  7. 可加,稿定科技,多云架構(gòu)下的 AI 存儲(chǔ)挑戰(zhàn)與 JuiceFS 實(shí)踐
  8. 鄧君宇,九識(shí)智能,基于 JuiceFS 的自動(dòng)駕駛多云億級(jí)文件存儲(chǔ)
  9. 高玉堂, Ariste AI,JuiceFS + MinIO:量化投資高性能存儲(chǔ)實(shí)踐
  10. 李威宇,光影煥像,基于 JuiceFS 搭建 3D AIGC 存儲(chǔ)平臺(tái),數(shù)據(jù)性能 2 倍提升
  11. 劉道全,始智 AI,基于 JuiceFS 打造高性能、低成本 AI 模型管理存儲(chǔ)平臺(tái)
  12. 高楊,酷睿程,自動(dòng)駕駛百 PB 級(jí)云原生存儲(chǔ)案例
  13. 曾奧涵,智譜 AI,大模型訓(xùn)練基礎(chǔ)設(shè)施落地實(shí)踐

親愛的社區(qū)伙伴們,我們一起度過(guò)了充實(shí)的一年。JuiceFS 從一個(gè)開源新秀,成長(zhǎng)為今天 AI 業(yè)務(wù)中備受信任的選擇,衷心感謝每一位社區(qū)成員的參與與支持,感謝你們?cè)谌豪锝獯饐?wèn)題、分享實(shí)踐、貢獻(xiàn)代碼!

新的一年里,JuiceFS 將繼續(xù)為你的工作帶來(lái)更高效、更輕松的體驗(yàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容