IP屬地:北京
1. 小文件合并綜述 1.1 小文件表現(xiàn) 不論是Hive還是Spark SQL在使用過程中都可能會(huì)遇到小文件過多的問題。小文件過多最直接的表現(xiàn)是任務(wù)執(zhí)行時(shí)間長(zhǎng),查看Spark...
一、引子 項(xiàng)目中遇到這樣一張表:user 要求對(duì)這個(gè)表按照sid 進(jìn)行聚合,將所有的id聚合成一個(gè)json,所有的tag聚合成一個(gè)json。在hive和Spark中,對(duì)tag...
Kevin Markham,數(shù)據(jù)科學(xué)講師,2002 年,畢業(yè)于范德堡大學(xué),計(jì)算機(jī)工程學(xué)士,2014 年,創(chuàng)建了 Data School,在線教授 Python 數(shù)據(jù)科學(xué)課程,...