引言 我所經(jīng)歷的大部分是 Java 應(yīng)用, Java 語言的一個特性就是不需要使用者管理內(nèi)存,Java 語言提供了管理內(nèi)存的利器=》垃圾回收器。垃圾收集器雖然解決了使用者避免...
引言 我所經(jīng)歷的大部分是 Java 應(yīng)用, Java 語言的一個特性就是不需要使用者管理內(nèi)存,Java 語言提供了管理內(nèi)存的利器=》垃圾回收器。垃圾收集器雖然解決了使用者避免...
背景 在上一期介紹了 Gravitino 的概念以及解決了什么問題,現(xiàn)在介紹下 Gravitino 如何與 Spark 集成,畢竟 Spark 的市占率是非常巨大的。 Spa...
一、背景介紹 某Java應(yīng)用,堆內(nèi)存5.6GB,GC停頓時間過長,年輕代GC也經(jīng)常超過1秒,影響響應(yīng)和系統(tǒng)穩(wěn)定性。初始GC參數(shù): 堆中年輕代占比較大,內(nèi)存占用高,GC頻繁且停...
三年前來到公司大數(shù)據(jù)團(tuán)隊(duì),算是入了大數(shù)據(jù)的坑。一開始對大數(shù)據(jù)的組件不是很了解,一路走來在不停地學(xué)習(xí)探索。上周遇到了一個問題,我們數(shù)據(jù)地圖的服務(wù)在預(yù)發(fā)環(huán)境觸發(fā) POD 級別的 ...
這是我在排查一個開源項(xiàng)目 Gravitino[https://github.com/apache/gravitino] 線上問題時的實(shí)戰(zhàn)記錄。起初問題表現(xiàn)得并不明顯,只是偶爾...
摘要 本文深入分析了 Apache Hive Metastore 中 ALTER TABLE 操作,重點(diǎn)探討了不同場景下分區(qū)元數(shù)據(jù)的更新策略。通過代碼級解析,我們揭示了 Hi...
什么是 Gravitino 引用官方文檔 Apache Gravitino 是一個高性能、地理分布式、聯(lián)邦式元數(shù)據(jù)湖。它能夠直接管理不同數(shù)據(jù)源、類型及區(qū)域的元數(shù)據(jù),同時為用戶...
前置知識: RDD 與算子: RDD(類似 Stream) RDD(彈性分布式數(shù)據(jù)集)是 Spark 的核心抽象,代表一個分布式的、不可變的數(shù)據(jù)集合。它允許開發(fā)人員以容錯的方...
前言 貪心是人類自帶的能力,貪心算法是在貪心決策上進(jìn)行統(tǒng)籌規(guī)劃的統(tǒng)稱。 比如一道常見的算法筆試題----跳一跳: 有n個盒子排成一行,每個盒子上面有一個數(shù)字a[i],表示最多...
參考文獻(xiàn):https://mp.weixin.qq.com/s/7Rq0LFhIs8oJoDRmNqrKqw 日志最主要的采集工具是 Agent,在 Kubernetes 場...
寫一下個人spark實(shí)現(xiàn)的es completion suggester,目錄如下, Overview 檢索建議suggestion(補(bǔ)全completion和糾正corre...
Ranger介紹 2016年,Hadoop迎來了自己十周歲生日。過去的十年,Hadoop雄霸武林盟主之位,號令天下,引領(lǐng)大數(shù)據(jù)技術(shù)生態(tài)不斷發(fā)展壯大,一時間百家爭鳴,百花齊放。...
0 前言 對于存儲介質(zhì)為磁盤或SSD的數(shù)據(jù)庫,長期以來主流使用B+樹這種索引結(jié)構(gòu)來實(shí)現(xiàn)快速數(shù)據(jù)查找。當(dāng)數(shù)據(jù)量不太大時,B+樹讀寫性能表現(xiàn)非常好。但是在海量數(shù)據(jù)情況下,B+樹越...
本篇文章內(nèi)的源碼: 這里[https://gitee.com/wo883721/compilers] 一. 概念 1.1 串首終結(jié)符集 定義: 給定一個文法符號串α, α的...
什么是Mock? 在單元測試中,我們往往想去獨(dú)立地去測一個類中的某個方法,但是這個類可不是獨(dú)立的,它會去調(diào)用一些其它類的方法和service,這也就導(dǎo)致了以下兩個問題: 外部...
函數(shù)組合是一項(xiàng)把多個函數(shù)合并到一個函數(shù)的技術(shù)。你可以自己將多個獨(dú)立的函數(shù)合并成一個函數(shù)(比如一個或多個 Java Lambda 表達(dá)式),但是對于函數(shù)組合 Java 也提供了...
概要 MapReduce 是一個處理和生成大數(shù)據(jù)集的程序模型和相關(guān)實(shí)現(xiàn)。用戶定義一個 map 函數(shù):處理一個 key/value 對生成一組中間鍵值對,和一個Reduce 函...