大數(shù)據(jù)常見(jiàn)術(shù)語(yǔ),你了解多少?

db433bde9822e9f77fe8d8325eb2ee7e.png

用戶(hù)畫(huà)像

用戶(hù)畫(huà)像又稱(chēng)用戶(hù)角色,作為一種勾畫(huà)目標(biāo)用戶(hù)、聯(lián)系用戶(hù)訴求與設(shè)計(jì)方向的有效工具,用戶(hù)畫(huà)像在各領(lǐng)域得到了廣泛的應(yīng)用。我們?cè)趯?shí)際操作的過(guò)程中往往會(huì)以最為淺顯和貼近生活的話語(yǔ)將用戶(hù)的屬性、行為與期待的數(shù)據(jù)轉(zhuǎn)化聯(lián)結(jié)起來(lái)。作為實(shí)際用戶(hù)的虛擬代表,用戶(hù)畫(huà)像所形成的用戶(hù)角色并不是脫離產(chǎn)品和市場(chǎng)之外所構(gòu)建出來(lái)的,形成的用戶(hù)角色需要有代表性能代表產(chǎn)品的主要受眾和目標(biāo)群體。

大數(shù)據(jù)殺熟

對(duì)大數(shù)據(jù)來(lái)說(shuō)這是一個(gè)不好的概念。

不同消費(fèi)者對(duì)價(jià)格敏感度不同,支付意愿有差異,相比起統(tǒng)一定價(jià),差異化的定價(jià)行為更能提高商家利潤(rùn)。因此互聯(lián)網(wǎng)入口出現(xiàn)壟斷,殺熟便會(huì)成為一種“自然反應(yīng)”。

大數(shù)據(jù)殺熟本身就是利用各種這個(gè)消費(fèi)數(shù)據(jù),把消費(fèi)數(shù)據(jù)形成標(biāo)簽,這種殺熟做法非常糟糕。其實(shí)在我們交易過(guò)程里面很容易識(shí)別,但在網(wǎng)絡(luò)商品交易里面可能比較難識(shí)別,而且會(huì)破壞交易的公平性,破壞了社會(huì)的公平。

即席查詢(xún)

即席查詢(xún)(Ad Hoc)是用戶(hù)根據(jù)自己的需求,靈活的選擇查詢(xún)條件,系統(tǒng)能夠根據(jù)用戶(hù)的選擇生成相應(yīng)的統(tǒng)計(jì)報(bào)表。即席查詢(xún)與普通應(yīng)用查詢(xún)最大的不同是普通的應(yīng)用查詢(xún)是定制開(kāi)發(fā)的,而即席查詢(xún)是由用戶(hù)自定義查詢(xún)條件的。

查詢(xún)引擎怎么選?7000字解析所有開(kāi)源引擎的秘密

數(shù)據(jù)湖

數(shù)據(jù)湖(Data Lake)是一個(gè)存儲(chǔ)企業(yè)的各種各樣原始數(shù)據(jù)的大型倉(cāng)庫(kù),其中的數(shù)據(jù)可供存取、處理、分析及傳輸。hudi 目前,Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會(huì)覺(jué)得數(shù)據(jù)湖就是Hadoop集群。數(shù)據(jù)湖是一個(gè)概念,而Hadoop是用于實(shí)現(xiàn)這個(gè)概念的技術(shù)。

數(shù)據(jù)湖能處理所有類(lèi)型的數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)等,數(shù)據(jù)的類(lèi)型依賴(lài)于數(shù)據(jù)源系統(tǒng)的原始數(shù)據(jù)格式。非結(jié)構(gòu)化數(shù)據(jù)(語(yǔ)音、圖片、視頻等) 根據(jù)海量的數(shù)據(jù),挖掘出規(guī)律,反應(yīng)給運(yùn)營(yíng)部門(mén)。擁有非常強(qiáng)的計(jì)算能力用于處理數(shù)據(jù)。

而不同與數(shù)據(jù)倉(cāng)庫(kù)的是:

數(shù)據(jù)倉(cāng)庫(kù)主要處理歷史的、結(jié)構(gòu)化的數(shù)據(jù),而且這些數(shù)據(jù)必須與數(shù)據(jù)倉(cāng)庫(kù)事先定義的模型吻合。數(shù)據(jù)倉(cāng)庫(kù)分析的指標(biāo)都是產(chǎn)品經(jīng)理提前規(guī)定好的。按需分析數(shù)據(jù)。(日活、新增、留存、轉(zhuǎn)化率等等)。

數(shù)據(jù)中臺(tái)

數(shù)據(jù)中臺(tái)是對(duì)既有/新建信息化系統(tǒng)業(yè)務(wù)與數(shù)據(jù)的沉淀,是實(shí)現(xiàn)數(shù)據(jù)賦能新業(yè)務(wù)、新應(yīng)用的中間、支撐性平臺(tái)。

在數(shù)據(jù)開(kāi)發(fā)中,核心數(shù)據(jù)模型的變化是相對(duì)緩慢的,同時(shí),對(duì)數(shù)據(jù)進(jìn)行維護(hù)的工作量也非常大;但業(yè)務(wù)創(chuàng)新的速度、對(duì)數(shù)據(jù)提出的需求的變化,是非常快速的。

數(shù)據(jù)中臺(tái)的出現(xiàn),就是為了彌補(bǔ)數(shù)據(jù)開(kāi)發(fā)和應(yīng)用開(kāi)發(fā)之間,由于開(kāi)發(fā)速度不匹配,出現(xiàn)的響應(yīng)力跟不上的問(wèn)題。

數(shù)據(jù)集市

數(shù)據(jù)集市(Data Mart),也叫數(shù)據(jù)市場(chǎng),數(shù)據(jù)集市就是滿(mǎn)足特定的部門(mén)或者用戶(hù)的需求,按照多維的方式進(jìn)行存儲(chǔ),包括定義維度、需要計(jì)算的指標(biāo)、維度的層次等,生成面向決策分析需求的數(shù)據(jù)立方體。

數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它主要面向部門(mén)級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題。為了解決靈活性與性能之間的矛盾,數(shù)據(jù)集市就是數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中增加的一種小型的部門(mén)或工作組級(jí)別的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)集市存儲(chǔ)為特定用戶(hù)預(yù)先計(jì)算好的數(shù)據(jù),從而滿(mǎn)足用戶(hù)對(duì)性能的需求。數(shù)據(jù)集市可以在一定程度上緩解訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的瓶頸。

特點(diǎn):
1.數(shù)據(jù)集市的特征包括規(guī)模小。
2.有特定的應(yīng)用。
3.面向部門(mén)。
4.由業(yè)務(wù)部門(mén)定義、設(shè)計(jì)和開(kāi)發(fā)。
5.業(yè)務(wù)部門(mén)管理和維護(hù)。
6.能快速實(shí)現(xiàn)。
7.購(gòu)買(mǎi)較便宜。
8.投資快速回收。
9.工具集的緊密集成。
10.提供更詳細(xì)的、預(yù)先存在的、數(shù)據(jù)倉(cāng)庫(kù)的摘要子集。
11.可升級(jí)到完整的數(shù)據(jù)倉(cāng)庫(kù)。

ETL

ETL 代表提取、轉(zhuǎn)換和加載。它指的是這一個(gè)過(guò)程:「提取」原始數(shù)據(jù),通過(guò)清洗/豐富的手段,把數(shù)據(jù)「轉(zhuǎn)換」為「適合使用」的形式,并且將其「加載」到合適的庫(kù)中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉(cāng)庫(kù),但是這個(gè)過(guò)程在獲取數(shù)據(jù)的時(shí)候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。

雪花模型、星型模型和星座模型

星型模型:是一種多維的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)表(Fact Table)和一組維表(Dimension Table)組成。每個(gè)維表都有一個(gè)維作為主鍵,所有這些維的主鍵組合成事實(shí)表的主鍵。

image.png

雪花型模型:當(dāng)有一個(gè)或多個(gè)維表沒(méi)有直接連接到事實(shí)表上,而是通過(guò)其他維表連接到事實(shí)表上時(shí),其圖解就像多個(gè)雪花連接在一起,故稱(chēng)雪花模型。雪花模型是對(duì)星型模型的擴(kuò)展。它對(duì)星型模型的維表進(jìn)一步層次化,原有的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的 "層次 " 區(qū)域,這些被分解的表都連接到主維度表而不是事實(shí)表。

image.png

星座模型:由多個(gè)事實(shí)表組合,維表是公共的,可以被多個(gè)事實(shí)表共享。

image.png

事實(shí)表

事實(shí)表中的每行數(shù)據(jù)代表一個(gè)業(yè)務(wù)事件?!笆聦?shí)”這個(gè)術(shù)語(yǔ)表示的是業(yè)務(wù)事件的度量值,例如,訂單事件中的下單金額。

(1)事務(wù)性事實(shí)表 以每個(gè)事務(wù)或事件為單位,例如一個(gè)銷(xiāo)售訂單記錄,一筆支付記錄等,作為事實(shí)表里的一行數(shù)據(jù)。
(2)周期性快照事實(shí)表 周期性快照事實(shí)表中不會(huì)保留所有數(shù)據(jù),只保留固定時(shí)間間隔的數(shù)據(jù),例如每天或者每月的銷(xiāo)售額,或每月的賬戶(hù)余額等。
(3)累積性快照事實(shí)表 累計(jì)快照事實(shí)表用于跟蹤業(yè)務(wù)事實(shí)的變化。例如,數(shù)據(jù)倉(cāng)庫(kù)中可能需要累積或者存儲(chǔ)訂單從下訂單開(kāi)始,到訂單商品被打包、運(yùn)輸、和簽收的各個(gè)業(yè)務(wù)階段的時(shí)間點(diǎn)數(shù)據(jù)來(lái)跟蹤訂單聲明周期的進(jìn)展情況。當(dāng)這個(gè)業(yè)務(wù)過(guò)程進(jìn)行時(shí),事實(shí)表的記錄也要不斷跟新。

維度表

維度表(Dimension Table)或維表,有時(shí)也稱(chēng)查找表(Lookup Table),是與事實(shí)表相對(duì)應(yīng)的一種表;它保存了維度的屬性值,可以跟事實(shí)表做關(guān)聯(lián);相當(dāng)于將事實(shí)表上經(jīng)常重復(fù)出現(xiàn)的屬性抽取、規(guī)范出來(lái)用一張表進(jìn)行管理。常見(jiàn)的維度表有:日期表(存儲(chǔ)與日期對(duì)應(yīng)的周、月、季度等的屬性)、地點(diǎn)表(包含國(guó)家、?。?、城市等屬性)等。維度是維度建模的基礎(chǔ)和靈魂,

使用維度表有諸多好處,具體如下:

(1). 縮小了事實(shí)表的大小。
(2). 便于維度的管理和維護(hù),增加、刪除和修改維度的屬性,不必對(duì)事實(shí)表的大量記錄進(jìn)行改動(dòng)。
(3).維度表可以為多個(gè)事實(shí)表重用,以減少重復(fù)工作。

上鉆與下鉆

上鉆:自下而上,從當(dāng)前數(shù)據(jù)回歸到上層數(shù)據(jù)。
下鉆:自上而下, 從當(dāng)前數(shù)據(jù)繼續(xù)向下獲取下層數(shù)據(jù)。
鉆取是在數(shù)據(jù)分析中不可缺少的功能之一,通過(guò)改變展現(xiàn)數(shù)據(jù)維度的層次、變換分析的粒度從而關(guān)注數(shù)據(jù)中更詳盡的信息。它包括向上鉆?。?roll up )和向下鉆取( drill down )。

上鉆是沿著維度的層次向上聚集匯總數(shù)據(jù),下鉆是在分析時(shí)加深維度,對(duì)數(shù)據(jù)進(jìn)行層層深入的查看。通過(guò)逐層下鉆,數(shù)據(jù)更加一目了然,更能充分挖掘數(shù)據(jù)背后的價(jià)值,及時(shí)做出更加正確的決策。

維度退化

維度退化的維度表可以被剔除,從而簡(jiǎn)化維度數(shù)據(jù)倉(cāng)庫(kù)的模式。因?yàn)楹?jiǎn)單的模式比復(fù)雜的更容易理解,也有更好的查詢(xún)性能。

當(dāng)一個(gè)維度沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)需要的任何數(shù)據(jù)時(shí)就可以退化此維度。需要把維度退化的相關(guān)數(shù)據(jù)遷移到事實(shí)表中,然后刪除退化的維度。

維度屬性也可以存儲(chǔ)到事實(shí)表中,這種存儲(chǔ)到事實(shí)表中的維度列被稱(chēng)為“維度退化”。與其他存儲(chǔ)在維表中的維度一樣 , 維度退化也可以用來(lái)進(jìn)行事實(shí)表的過(guò)濾查詢(xún)、實(shí)現(xiàn)聚合操作等。

UV與PV

PV(訪問(wèn)量):即Page View, 具體是指網(wǎng)站的是頁(yè)面瀏覽量或者點(diǎn)擊量;

UV(獨(dú)立訪客):即Unique Visitor,訪問(wèn)您網(wǎng)站的一臺(tái)電腦客戶(hù)端為一個(gè)訪客。根據(jù)IP地址來(lái)區(qū)分訪客數(shù),在一段時(shí)間內(nèi)重復(fù)訪問(wèn),也算是一個(gè)UV;

UV價(jià)值=銷(xiāo)售額/訪客數(shù)。意思是每位訪客帶來(lái)多少銷(xiāo)售額;UV價(jià)值越大,產(chǎn)品越迎合消費(fèi)者需求,只有一定的推廣投入才會(huì)帶來(lái)相對(duì)應(yīng)的UV;比如這篇文章文末的瀏覽量這邊代表的就是UV,不管你今天打開(kāi)過(guò)還是明天再打開(kāi),對(duì)你來(lái)說(shuō),程序后臺(tái)記錄的增加值是1。

SKU與SPU

SPU = Standard Product Unit (標(biāo)準(zhǔn)化產(chǎn)品單元)

SPU是商品信息聚合的最小單位,是一組可復(fù)用、易檢索的標(biāo)準(zhǔn)化信息的集合,該集合描述了一個(gè)產(chǎn)品的特性。通俗點(diǎn)講,屬性值、特性相同的商品就可以稱(chēng)為一個(gè)SPU。

SKU=stock keeping unit(庫(kù)存量單位)

SKU即庫(kù)存進(jìn)出計(jì)量的單位, 可以是以件、盒、托盤(pán)等為單位。

你想要一臺(tái)iPhone13, 店員也會(huì)再繼續(xù)問(wèn): 你想要什么iPhone 13? 64G 銀色?128G 白色?每一臺(tái)iPhone 13的毛重都是400.00g,產(chǎn)地也都是中國(guó)大陸,這兩個(gè)屬性就屬于spu屬性。

而容量和顏色,這種會(huì)影響價(jià)格和庫(kù)存的(比如64G與128G的價(jià)格不同,128G白色還有貨,綠色賣(mài)完了)屬性就是sku屬性。

spu屬性:
1、毛重420.00 g
2、產(chǎn)地中國(guó)大陸
sku屬性:
1、容量: 16G, 64G, 128G
2、顏色: 銀、白、玫瑰金

ODS,DWD,DWS,DWT與ADS

ODS層:保持?jǐn)?shù)據(jù)原貌不做任何修改,起到備份數(shù)據(jù)的作用。
DWD層:構(gòu)建維度模型,一般采用星型模型,呈現(xiàn)的狀態(tài)一般為星座模型。
DWS層:服務(wù)數(shù)據(jù)層,DWS層存放的所有主題對(duì)象當(dāng)天的匯總行為,例如每個(gè)地區(qū)當(dāng)天的下單次數(shù),下單金額等。
DWT層:DWT層存放的是所有主題對(duì)象的累計(jì)行為,例如一個(gè)地區(qū)最近(7天,15天,30天,60天)的下單次數(shù)、下單金額等。
DWS層是天表,DWT層是累計(jì)值。
ADS層:應(yīng)用數(shù)據(jù)層,指標(biāo)層。

T+0與T+1

概念最早來(lái)自于股市。T+0和T+1交易制度是中國(guó)股市的一種交易制度,T+0交易指的是當(dāng)天買(mǎi)入股票可當(dāng)天賣(mài)出,當(dāng)天賣(mài)出股票又可當(dāng)天買(mǎi)入。
在大數(shù)據(jù)中:T+0代表實(shí)時(shí)處理的數(shù)據(jù)。T+1代表處理昨天的數(shù)據(jù)。

機(jī)器學(xué)習(xí)

人工智能的一部分,指的是機(jī)器能夠從它們所完成的任務(wù)中進(jìn)行自我學(xué)習(xí),通過(guò)長(zhǎng)期的累積實(shí)現(xiàn)自我改進(jìn)。

MapReduce

是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map: 映射,Reduce: 歸納)。

實(shí)時(shí)數(shù)據(jù)

指在幾毫秒內(nèi)被創(chuàng)建、處理、存儲(chǔ)、分析并顯示的數(shù)據(jù)。

本文轉(zhuǎn)載自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容