一、分析問(wèn)題,明確目標(biāo) 1.風(fēng)險(xiǎn)訂單識(shí)別模型 很多互聯(lián)網(wǎng)公司都是中間商,需要連接用戶(hù)與供應(yīng)商,將用戶(hù)的訂單提供給供應(yīng)商,由供應(yīng)商履行訂單 但是在這個(gè)過(guò)程中,很容易會(huì)因?yàn)楦鞣N原...
一、分析問(wèn)題,明確目標(biāo) 1.風(fēng)險(xiǎn)訂單識(shí)別模型 很多互聯(lián)網(wǎng)公司都是中間商,需要連接用戶(hù)與供應(yīng)商,將用戶(hù)的訂單提供給供應(yīng)商,由供應(yīng)商履行訂單 但是在這個(gè)過(guò)程中,很容易會(huì)因?yàn)楦鞣N原...
Q1:什么是用戶(hù)畫(huà)像? 用戶(hù)畫(huà)像是互聯(lián)網(wǎng)大數(shù)據(jù)體系中非常重要的一部分 通過(guò)用戶(hù)畫(huà)像,可以對(duì)用戶(hù)進(jìn)行全面分析 可以利用用戶(hù)畫(huà)像“千人千面”地推薦相關(guān)產(chǎn)品 可以基于用戶(hù)畫(huà)像分析產(chǎn)...
Q1:簡(jiǎn)述AB測(cè)試。 1.AB測(cè)試 為了評(píng)估模型/項(xiàng)目的效果,在App/PC端同時(shí)設(shè)計(jì)多個(gè)版本 在同一時(shí)間維度下,分別讓組成成分相同(相似)的訪客群組隨機(jī)訪問(wèn)這些版本 收集各...
Q:如何提供數(shù)據(jù)分析報(bào)告的質(zhì)量? 一、明確整體分析思路 好的數(shù)據(jù)分析報(bào)告都依賴(lài)于一個(gè)明確的思路,需要在開(kāi)始設(shè)計(jì)報(bào)告前就整理出一個(gè)基本的框架,然后在設(shè)計(jì)過(guò)程中進(jìn)行適當(dāng)?shù)奶砑?切...
Q1:現(xiàn)在需要監(jiān)控?cái)?shù)據(jù)并設(shè)計(jì)相應(yīng)的報(bào)表,應(yīng)該考慮哪些問(wèn)題? 看什么:報(bào)表設(shè)計(jì)——提高信息量,提升可讀性 怎么看:報(bào)表輸出——圖表、數(shù)據(jù)看板 給誰(shuí)看:報(bào)表受眾——基于需要提供相...
在工作中,針對(duì)“xxxApp或xxx功能模塊最近的用戶(hù)量或者其他相關(guān)指標(biāo)下降了,你會(huì)如何進(jìn)行分析”等問(wèn)題,最直接的解決方法就是建立完整的指標(biāo)體系。通過(guò)指標(biāo)體系,能夠很直觀的發(fā)...
作為數(shù)據(jù)分析師,經(jīng)常被問(wèn)到的問(wèn)題是“XXX數(shù)據(jù)最近上升/下降了,是什么原因造成的?”“新上線(xiàn)的功能給業(yè)務(wù)帶來(lái)的是正面影響還是負(fù)面影響”“對(duì)于xxx,我們需要制定什么樣的策略,...
Q1:SQL中有哪些常用的聚合函數(shù)? 常用的聚合函數(shù) 注:對(duì)表中所有記錄進(jìn)行聚合計(jì)算時(shí),無(wú)需使用group by語(yǔ)句,可以在select后直接寫(xiě)聚合函數(shù),但是不能出現(xiàn)非聚合字...
在很多查詢(xún)場(chǎng)景中,數(shù)據(jù)往往來(lái)源于多個(gè)表,所以需要將多個(gè)表連接起來(lái)進(jìn)行查詢(xún),即多表查詢(xún) Q1:簡(jiǎn)要介紹join連接,以及如何使用join進(jìn)行簡(jiǎn)單的表連接? 1.join joi...
本文通過(guò)案例進(jìn)行講解 假設(shè)數(shù)據(jù)庫(kù)有一個(gè)名為students_grade的表: 計(jì)算所有學(xué)生各個(gè)學(xué)科在2019年的平均分,篩選出平均分超過(guò)60分的記錄,并且最后以平均分進(jìn)行降序...
Q1:什么是SQL?為什么要用到SQL? 1.SQL(Structured Query Language,結(jié)構(gòu)化查詢(xún)語(yǔ)言) SQL是一種數(shù)據(jù)庫(kù)查詢(xún)和程序設(shè)計(jì)語(yǔ)言,用于存取數(shù)據(jù)...
本文通過(guò)一個(gè)真實(shí)面試題目來(lái)講解R語(yǔ)言的數(shù)據(jù)挖掘 一、題目 建立線(xiàn)性回歸模型,預(yù)測(cè)各個(gè)酒店未來(lái)一段時(shí)間每天的訂單量 數(shù)據(jù): 二、數(shù)據(jù)處理 首先,將沒(méi)有任何意義的單純表示排序的第...
Q1:如何使用R語(yǔ)言進(jìn)行數(shù)據(jù)可視化,用其可視化有什么特點(diǎn)? R語(yǔ)言可視化主要依賴(lài)ggplot2包以及相應(yīng)的衍生包 ggplot2的核心理念:將繪圖與數(shù)據(jù)分離,并且按圖層作圖,...
Q1:如何用R語(yǔ)言進(jìn)行基本的數(shù)據(jù)框操作? 1.讀取CSV文件并查看 read.csv()讀取csv文件 View()查看數(shù)據(jù)框數(shù)據(jù) 代碼示例: 輸出結(jié)果: 2.添加列 代碼示...
Q1:什么是R語(yǔ)言?它跟現(xiàn)在流行的Python相比有什么特點(diǎn)? 1.R語(yǔ)言簡(jiǎn)介 R語(yǔ)言在統(tǒng)計(jì)領(lǐng)域被廣泛使用,是S語(yǔ)言的一個(gè)分支,可以認(rèn)為它是S語(yǔ)言的一種實(shí)現(xiàn),主要用于統(tǒng)計(jì)分析...
Q1:簡(jiǎn)要闡述分詞的三種模式及其區(qū)別。 1.分詞的三種模式 精確模式:試圖將句子最精確地切分開(kāi),適合文本分析 全模式:把句子中所有可以成詞的詞都掃描出來(lái),速度非???,但是不能...
Python中能實(shí)現(xiàn)數(shù)據(jù)可視化的包有很多:matplotlib、pyecharts、seaborns、bokeh等,本文主要介紹前兩個(gè)包。 Q1:如何使用matplotlib...
Q1:什么是pandas?為什么要用pandas? 在數(shù)據(jù)分析中,最重要的兩個(gè)Python庫(kù)就是NumPy和pandas,其中用得最多的是pandas庫(kù)。 pandas是基于...
Q1:什么是python?為什么要選擇python? python是當(dāng)今應(yīng)用最廣泛的編程語(yǔ)言之一,以效率高和代碼可讀性強(qiáng)而著稱(chēng) python介于R語(yǔ)言和Java語(yǔ)言之間,既可...
Q1:對(duì)于預(yù)測(cè)問(wèn)題常用的評(píng)估方法有哪些? 1.MSE(Mean Squared Error,均方誤差) 定義:參數(shù)估計(jì)值與參數(shù)真值之差平方的期望值 MSE可以用于評(píng)估數(shù)據(jù)的變...