Spark性能優(yōu)化指南——基礎(chǔ)篇: https://tech.meituan.com/spark-tuning-basic.html Spark性能優(yōu)化指南——高級(jí)篇: ht...
Spark性能優(yōu)化指南——基礎(chǔ)篇: https://tech.meituan.com/spark-tuning-basic.html Spark性能優(yōu)化指南——高級(jí)篇: ht...
Logistic Regression 本質(zhì)論 發(fā)表于2016-07-08| 分類于機(jī)器學(xué)習(xí)| LR essential in one sentence 關(guān)于Logisti...
轉(zhuǎn):http://whuhan2013.github.io/blog/2016/12/14/exception-and-recommd/
連續(xù)特征的離散化:在什么情況下將連續(xù)的特征離散化之后可以獲得更好的效果? Q:CTR預(yù)估,發(fā)現(xiàn)CTR預(yù)估一般都是用LR,而且特征都是離散的。為什么一定要用離散特征呢?這樣做的...
Matrix Factorization: A Simple Tutorial and Implementation in Python url:http://www.quu...
當(dāng)在做數(shù)據(jù)挖掘和數(shù)據(jù)分析時(shí),數(shù)據(jù)是所有問題的基礎(chǔ),并且會(huì)影響整個(gè)工程的流程。相比一些復(fù)雜的算法,如何靈活的處理好數(shù)據(jù)經(jīng)常會(huì)取到意想不到的效益。而處理數(shù)據(jù)不可或缺的需要使用到特...
一.互聯(lián)網(wǎng)廣告特征工程 博文《互聯(lián)網(wǎng)廣告綜述之點(diǎn)擊率系統(tǒng)》論述了互聯(lián)網(wǎng)廣告的點(diǎn)擊率系統(tǒng),可以看到,其中的logistic regression模型是比較簡單而且實(shí)用的,其訓(xùn)練...
1. 比rdd更省內(nèi)存 2. 執(zhí)行效率更高 3.接口友好,使用方便 mark: https://databricks.com/blog/2016/01/04/introduc...
自定義聚合函數(shù)實(shí)例: mark:https://docs.databricks.com/spark/latest/spark-sql/udaf-scala.html
yourSparkConf.set("spark.hadoop.validateOutputSpecs", "false") val sc = SparkContext(yo...
Python內(nèi)存釋放 python話說會(huì)自己管理內(nèi)存,實(shí)際上,對(duì)于占用很大內(nèi)存的對(duì)象,并不會(huì)馬上釋放。舉例,a=range(10000*10000),會(huì)發(fā)現(xiàn)內(nèi)存飆升一個(gè)多G,...
# 總核數(shù) = 物理CPU個(gè)數(shù) X 每顆物理CPU的核數(shù) # 總邏輯CPU數(shù) = 物理CPU個(gè)數(shù) X 每顆物理CPU的核數(shù) X 超線程數(shù) # 查看物理CPU個(gè)數(shù) cat /p...
Python更新后yum報(bào)錯(cuò) mark:http://www.itdecent.cn/p/9a5449166f57
Spark: Custom UDAF Example mark:https://ragrawal.wordpress.com/2015/11/03/spark-custom-...
需求: 將數(shù)據(jù)表格中的單列拆分成多行 解決方法: 在dataframe使用explode,explode可將array類型的列拆分成行,udf可將自定義行數(shù)定制數(shù)據(jù)的處理邏輯...