tar -zcvf /home/xahot.tar.gz /xahot tar -zcvf 打包后生成的文件名全路徑 要打包的目錄 例子:把/xahot文件夾打包后生成一個/...
tar -zcvf /home/xahot.tar.gz /xahot tar -zcvf 打包后生成的文件名全路徑 要打包的目錄 例子:把/xahot文件夾打包后生成一個/...
spark 算法原理 協(xié)同過濾是用來對用戶的興趣偏好做預(yù)測的一種方法。在Spark中實現(xiàn)的是基于潛在因子模型的協(xié)同過濾。用戶對特定物品的偏好往往可以用評分的形式給出,評分矩陣...
一、什么是歸因分析? 在復(fù)雜的數(shù)據(jù)時代,我們每天都會面臨產(chǎn)生產(chǎn)生的大量的數(shù)據(jù)以及用戶復(fù)雜的消費行為路徑,特別是在互聯(lián)網(wǎng)廣告行業(yè),在廣告投放的效果評估上,往往會產(chǎn)生一系列的問題...
從不浪費時間的人,沒有工夫抱怨時間不夠。 —— 杰弗遜 第一句話:時間戳 時間不分東西南北、在地球的每一個角落都是相同的。他們都有一個相同的名字,叫時間戳。時間戳 指的就是U...
假設(shè)說我們現(xiàn)在有這樣一張表 問題分析 連續(xù)登陸,也就是在連續(xù)登陸的期間內(nèi),后一天和前一天的差值為1,不能為大于1的值,直到間斷。那么在這里其實我們可以設(shè)置一列序號,如果是連續(xù)...
1、用conda創(chuàng)建Python虛擬環(huán)境(在conda prompt環(huán)境下完成) conda create -n environment_name python=X.X(注:...
搭建 Python 虛擬環(huán)境,可以方便地Python2,Python3 共存。避免包的混亂和版本的沖突。為每個程序單獨創(chuàng)建虛擬環(huán)境可以保證程序中能訪問虛擬環(huán)境中的包,保持解釋...
前 言 作為自然語言處理愛好者,大家都應(yīng)該聽說過或使用過大名鼎鼎的Gensim吧,這是一款具備多種功能的神器。Gensim是一款開源的第三方Python工具包,用于從原始的...
谷歌推出的Bert,最近有多火,估計做自然語言處理的都知道。據(jù)稱在SQuAD等11項任務(wù)當中達到了state of the art。bert的原理可參考論文,或者網(wǎng)上其他人翻...
在假設(shè)檢驗中,顯著性水平和P值意味著什么? 究竟什么是統(tǒng)計顯著性? 在這篇文章中,我主要用概念和圖形來幫助讀者更直觀地理解假設(shè)檢驗在統(tǒng)計學(xué)中的工作原理。為了實現(xiàn)它,我將顯著性...
[TOC] 簡介 kafka是一個分布式消息隊列。具有高性能、持久化、多副本備份、橫向擴展能力。生產(chǎn)者往隊列里寫消息,消費者從隊列里取消息進行業(yè)務(wù)邏輯。一般在架構(gòu)設(shè)計中起到解...
什么是協(xié)同過濾 協(xié)同過濾推薦(Collaborative Filtering recommendation)是在信息過濾和信息系統(tǒng)中正迅速成為一項很受歡迎的技術(shù)。與傳統(tǒng)的基于...
這篇文章會討論: 在什么情況下需要做 AB 實驗 從產(chǎn)品/交互角度,如何設(shè)計一個實驗 前端工程師如何打點 如何統(tǒng)計數(shù)據(jù),并保證數(shù)據(jù)準確可信 如何分析實驗數(shù)據(jù),有哪些數(shù)據(jù)需要重...
在大規(guī)模數(shù)據(jù)處理中,這個錯誤比較常見。一般發(fā)生在有大量shuffle操作的時候,task不斷的failed,然后又重執(zhí)行,一直循環(huán)下去,直到application失敗。 報錯...
Spark-Job-Stage-Task之間的關(guān)系 基本概念 在開始之前需要先了解Spark中Application,Job,Stage等基本概念,官方給出的解釋如下表: J...
Hive調(diào)優(yōu)集錦[https://blog.csdn.net/zhanglong_4444/article/details/117264381]Hive/HiveSQL常用優(yōu)...