什么是小文件 Spark官方的推薦文檔中,parquet格式的文件的推薦大小是128M,小于該值的文件均可以稱(chēng)為小文件。但在實(shí)際工作中,小文件的...
前幾日在MySQL執(zhí)行一條update語(yǔ)句時(shí)報(bào)錯(cuò),報(bào)錯(cuò)信息如下: 通過(guò)搜索查到有很多類(lèi)似的報(bào)錯(cuò)例子,區(qū)別只是在于有的是3072 bytes,有的...
我們?cè)谕ㄟ^(guò)Canal把MySQL的Binlog數(shù)據(jù)發(fā)送到MQ(kafak/rocketmq)時(shí),需要關(guān)注mq的順序性問(wèn)題。Binlog本身是有序...
現(xiàn)狀 使用DataX從生產(chǎn)DB拉取數(shù)據(jù)時(shí),正常的業(yè)務(wù)場(chǎng)景我們都是通過(guò)增量拉取做Merge的方式來(lái)限制抽取的數(shù)據(jù)量,但存在以下幾種情況需要做大數(shù)據(jù)...
在建設(shè)實(shí)時(shí)數(shù)倉(cāng)的過(guò)程中,用到了Mysql存放增量的結(jié)果數(shù)據(jù),所以需要定時(shí)清理歷史數(shù)據(jù),為了避免影響的線上的實(shí)時(shí)數(shù)據(jù)寫(xiě)入,采用了按照最后更改時(shí)間,...
周末的時(shí)候在家收到了工作的告警通知,遠(yuǎn)程登錄后發(fā)現(xiàn)是自運(yùn)維的CK集群硬盤(pán)空間不足,通過(guò)命令查看各個(gè)目錄的大小,確定是Zookeeper的日志及s...
Hive Join common join如果不指定MapJoin或者不符合MapJoin的條件,那么Hive解析器會(huì)將Join操作轉(zhuǎn)換成Com...
轉(zhuǎn)載文章,原文鏈接[http://www.itdecent.cn/p/f219d207d853] 1. 查看CPU 1.1 查看CPU個(gè)數(shù) 1...
近期在自建數(shù)據(jù)分析平臺(tái)的時(shí)候,遇到了事實(shí)表包含兩個(gè)業(yè)務(wù)時(shí)間語(yǔ)義的問(wèn)題,結(jié)合數(shù)倉(cāng)事實(shí)表建設(shè)方面的方法論,整理記錄一些自己的想法。事實(shí)表的通常可以劃...