什么是小文件 Spark官方的推薦文檔中,parquet格式的文件的推薦大小是128M,小于該值的文件均可以稱為小文件。但在實(shí)際工作中,小文件的定義不是這么絕對(duì),可能存在文件...
什么是小文件 Spark官方的推薦文檔中,parquet格式的文件的推薦大小是128M,小于該值的文件均可以稱為小文件。但在實(shí)際工作中,小文件的定義不是這么絕對(duì),可能存在文件...
前幾日在MySQL執(zhí)行一條update語(yǔ)句時(shí)報(bào)錯(cuò),報(bào)錯(cuò)信息如下: 通過搜索查到有很多類似的報(bào)錯(cuò)例子,區(qū)別只是在于有的是3072 bytes,有的是768bytes,于是總結(jié)了...
我們?cè)谕ㄟ^Canal把MySQL的Binlog數(shù)據(jù)發(fā)送到MQ(kafak/rocketmq)時(shí),需要關(guān)注mq的順序性問題。Binlog本身是有序的,寫入到mq之后如何保障順序...
利用clickhouse中的toStartOf*()函數(shù),將時(shí)間歸屬到相同點(diǎn),然后利用分組統(tǒng)計(jì)即可。 toStartOf*()函數(shù): toStartOfInterval() ...
現(xiàn)狀 使用DataX從生產(chǎn)DB拉取數(shù)據(jù)時(shí),正常的業(yè)務(wù)場(chǎng)景我們都是通過增量拉取做Merge的方式來(lái)限制抽取的數(shù)據(jù)量,但存在以下幾種情況需要做大數(shù)據(jù)量的同步: 大表全量初始化 生...
在建設(shè)實(shí)時(shí)數(shù)倉(cāng)的過程中,用到了Mysql存放增量的結(jié)果數(shù)據(jù),所以需要定時(shí)清理歷史數(shù)據(jù),為了避免影響的線上的實(shí)時(shí)數(shù)據(jù)寫入,采用了按照最后更改時(shí)間,分段刪除的方法。對(duì)應(yīng)的存儲(chǔ)過程如下:
周末的時(shí)候在家收到了工作的告警通知,遠(yuǎn)程登錄后發(fā)現(xiàn)是自運(yùn)維的CK集群硬盤空間不足,通過命令查看各個(gè)目錄的大小,確定是Zookeeper的日志及snapshot占用了絕大部分空...
Hive Join common join如果不指定MapJoin或者不符合MapJoin的條件,那么Hive解析器會(huì)將Join操作轉(zhuǎn)換成Common Join,即:在Red...
前言 忙亂的1月馬上就要過去了,連續(xù)20多天沒更新,還是寫點(diǎn)什么找找狀態(tài)比較好。 最近我們服務(wù)ClickHouse集群的ZooKeeper znode數(shù)量一度突破了300萬(wàn),...
轉(zhuǎn)載文章,原文鏈接[http://www.itdecent.cn/p/f219d207d853] 1. 查看CPU 1.1 查看CPU個(gè)數(shù) 1.2 查看CPU核數(shù) 1.3...
近期在自建數(shù)據(jù)分析平臺(tái)的時(shí)候,遇到了事實(shí)表包含兩個(gè)業(yè)務(wù)時(shí)間語(yǔ)義的問題,結(jié)合數(shù)倉(cāng)事實(shí)表建設(shè)方面的方法論,整理記錄一些自己的想法。事實(shí)表的通??梢詣澐譃槿缦氯悾?事務(wù)事實(shí)表 周...
背景 工作中遇到一個(gè)需求,需要按天劃分窗口,并且每隔固定時(shí)間段觸發(fā)一次窗口計(jì)算,時(shí)間語(yǔ)義為ProcessingTime。在測(cè)試過程中發(fā)現(xiàn),使用ContinuousProces...
先上一張官方給出的1.10版本的內(nèi)存模型圖示: 然后再貼一張現(xiàn)在正在運(yùn)行的flink任務(wù)與TaskManager內(nèi)存有關(guān)的參數(shù)信息: 現(xiàn)在開始看圖說(shuō)話:從啟動(dòng)參數(shù)配置上,我們...
兄dei加油??!在你這學(xué)到了不少東西??????
2020。2020年最后一天的最后一個(gè)小時(shí)了,還是來(lái)隨便寫兩句吧。 技術(shù)/工作 有幸見證了我司業(yè)務(wù)的急速擴(kuò)張,當(dāng)然也全程參與了大數(shù)據(jù)架構(gòu)的迭代與演進(jìn)過程,特別是主導(dǎo)了實(shí)時(shí)數(shù)倉(cāng)體系的建設(shè)...
更多大數(shù)據(jù)技術(shù)干貨,歡迎關(guān)注“大數(shù)據(jù)技術(shù)進(jìn)階”微信公眾號(hào)。 Shuffle簡(jiǎn)介 Shuffle的本意是洗牌、混洗的意思,把一組有規(guī)則的數(shù)據(jù)盡量打亂成無(wú)規(guī)則的數(shù)據(jù)。而在MapR...
http://blog.csdn.net/yu616568/article/details/51868447背景隨著大數(shù)據(jù)時(shí)代的到來(lái),越來(lái)越多的數(shù)據(jù)流向了Hadoop生態(tài)圈,...