為什么通過日志方式采集數(shù)據(jù)? 減少對業(yè)務(wù)庫的入侵,如果使用全量方式獲取數(shù)據(jù)會對業(yè)務(wù)庫造成很大的性能影響。通過流式采集binlog對業(yè)務(wù)庫的入侵性降到最低。 目前流式采集bin...
為什么通過日志方式采集數(shù)據(jù)? 減少對業(yè)務(wù)庫的入侵,如果使用全量方式獲取數(shù)據(jù)會對業(yè)務(wù)庫造成很大的性能影響。通過流式采集binlog對業(yè)務(wù)庫的入侵性降到最低。 目前流式采集bin...
數(shù)據(jù)湖正在成為一種越來越流行的大數(shù)據(jù)解決方案,而數(shù)據(jù)湖這個詞已經(jīng)被大數(shù)據(jù)供應(yīng)商賦予了太多不同的含義,如果有什么工作是傳統(tǒng)數(shù)據(jù)倉庫做不了的,那就把它塞進數(shù)據(jù)湖,以至于數(shù)據(jù)湖已經(jīng)...
Spark 多個Stage執(zhí)行是串行執(zhí)行的么?上次在做內(nèi)部培訓(xùn)的時候,我講了這么一句: 一個Job里的Stage都是串行的,前一個Stage完成后下一個Stage才會進行。 顯然上面的話是不嚴謹?shù)摹?看如下的代碼: 這里...
上次在做內(nèi)部培訓(xùn)的時候,我講了這么一句: 一個Job里的Stage都是串行的,前一個Stage完成后下一個Stage才會進行。 顯然上面的話是不嚴謹?shù)摹?看如下的代碼: 這里...
good,thanks
Spark中CartesianRDD依賴關(guān)系的特殊之處前言 RDD之間的依賴關(guān)系一般分為兩種,寬依賴和窄依賴。 在網(wǎng)上好多博客中是這樣描述寬依賴和窄依賴的特點 窄依賴每個父RDD的一個Partition最多被子RDD的一個Par...
一、Java基礎(chǔ) 實例方法和靜態(tài)方法有什么不一樣? Java中的異常有哪幾類?分別怎么使用? 常用的集合類有哪些?比如List如何排序? ArrayList和LinkedLi...