背景 在上一期介紹了 Gravitino 的概念以及解決了什么問題,現(xiàn)在介紹下 Gravitino 如何與 Spark 集成,畢竟 Spark 的市占率是非常巨大的。 Spa...
背景 在上一期介紹了 Gravitino 的概念以及解決了什么問題,現(xiàn)在介紹下 Gravitino 如何與 Spark 集成,畢竟 Spark 的市占率是非常巨大的。 Spa...
引言 我所經(jīng)歷的大部分是 Java 應(yīng)用, Java 語言的一個特性就是不需要使用者管理內(nèi)存,Java 語言提供了管理內(nèi)存的利器=》垃圾回收器。垃圾收集器雖然解決了使用者避免...
一、背景介紹 某Java應(yīng)用,堆內(nèi)存5.6GB,GC停頓時間過長,年輕代GC也經(jīng)常超過1秒,影響響應(yīng)和系統(tǒng)穩(wěn)定性。初始GC參數(shù): 堆中年輕代占比較大,內(nèi)存占用高,GC頻繁且停...
什么是 Gravitino 引用官方文檔 Apache Gravitino 是一個高性能、地理分布式、聯(lián)邦式元數(shù)據(jù)湖。它能夠直接管理不同數(shù)據(jù)源、類型及區(qū)域的元數(shù)據(jù),同時為用戶...
前置知識: RDD 與算子: RDD(類似 Stream) RDD(彈性分布式數(shù)據(jù)集)是 Spark 的核心抽象,代表一個分布式的、不可變的數(shù)據(jù)集合。它允許開發(fā)人員以容錯的方...
概要 MapReduce 是一個處理和生成大數(shù)據(jù)集的程序模型和相關(guān)實現(xiàn)。用戶定義一個 map 函數(shù):處理一個 key/value 對生成一組中間鍵值對,和一個Reduce 函...
前言 貪心是人類自帶的能力,貪心算法是在貪心決策上進(jìn)行統(tǒng)籌規(guī)劃的統(tǒng)稱。 比如一道常見的算法筆試題----跳一跳: 有n個盒子排成一行,每個盒子上面有一個數(shù)字a[i],表示最多...
參考文獻(xiàn):https://mp.weixin.qq.com/s/7Rq0LFhIs8oJoDRmNqrKqw 日志最主要的采集工具是 Agent,在 Kubernetes 場...
寫一下個人spark實現(xiàn)的es completion suggester,目錄如下, Overview 檢索建議suggestion(補全completion和糾正corre...