dataframe create 創(chuàng)建dataframe val training = ss.createDataFrame(Seq( (1.0, Vectors.de...
dataframe create 創(chuàng)建dataframe val training = ss.createDataFrame(Seq( (1.0, Vectors.de...
筆者近期使用了隨機(jī)數(shù)做抽樣,本來(lái)是一個(gè)簡(jiǎn)單的應(yīng)用,但是我想要探究一下隨機(jī)數(shù)的生成原理,就看了一些網(wǎng)上的相關(guān)文章,總結(jié)如下。 首先貼一段是用c# 的random 產(chǎn)生隨機(jī)數(shù)的代...
Product Quantizer 是一種將空間內(nèi)的點(diǎn)x,通過(guò)kmeans算法映射到多個(gè)聚類(lèi)中心, 然后在通過(guò)聚類(lèi)中心表示該點(diǎn)x的向量壓縮方法. 筆者在ANN算法和fastt...
背景: The sample complexity bounds of the previous chapter are uninformative when dealing...
PAD-learnable的 定義: P(Rs(h(x))>=?)<=δ * 存在對(duì)應(yīng)的其中是樣本的數(shù)量,代表樣本的分布代表樣本空間 * 存在對(duì)應(yīng)的Dm,其中,m是樣本的數(shù)量...
1. 壓縮目的: 在基本不影響模型效果的基礎(chǔ)上,對(duì)bert模型進(jìn)行同構(gòu)壓縮,將layer 與embedding size減少, 盡可能提升模型的性能。 比較經(jīng)典的壓縮尺寸是 ...
一. 應(yīng)用場(chǎng)景 1.分類(lèi) 2. ranking 二. AUC的意義解釋 在隨機(jī)抽取兩個(gè)正負(fù)樣本,負(fù)樣本得分比正樣本高的比例. 這樣的解釋?zhuān)诜诸?lèi)場(chǎng)景和rank場(chǎng)景都能說(shuō)得通....
《Foundations of Machine Learning》一書(shū)是一本很好的機(jī)器學(xué)習(xí)教材, 作者: Mohri,Rostamizeadeh, Talwalkar. Ma...
引言 機(jī)器學(xué)習(xí)模型,如nb, svm, xgboost, gdbt, crf 等,是進(jìn)行分類(lèi),排序,回歸的常用工具。目前,有許多機(jī)器學(xué)習(xí)的工具性platform,如sklea...
@Justaman 是的,這個(gè)寫(xiě)作有一段歷史了,記憶有點(diǎn)模糊,應(yīng)該是遠(yuǎn)嗎
elmo 實(shí)驗(yàn)心得及elmo個(gè)人理解1. 名詞:ELMO:哈工大LTP 開(kāi)發(fā)的動(dòng)態(tài)詞向量。 問(wèn)題一:何為動(dòng)態(tài)詞向量: 普通的詞向量,是靜態(tài)的,也就是一個(gè)詞代表一個(gè)N維向量,這種向量不隨著語(yǔ)境的變化而變化,不管在...
分組的含義 在正則表達(dá)式中,需要在一個(gè)序列中匹配到的單元,在寫(xiě)編輯正則模板的時(shí)候用括號(hào)0 括起來(lái)。并且.為了方便給括號(hào)里面的內(nèi)容璧值,可以采用group-Name,分組命名的...
神經(jīng)網(wǎng)絡(luò)在目前各種nlp與cv的場(chǎng)景都有廣泛的應(yīng)用。那么,Tensor流經(jīng)過(guò)各個(gè)layer的機(jī)理是什么? 一.CNN cnn引入有兩個(gè)需要注意的概念,一是滑動(dòng)窗口的機(jī)制,另一...
一.安裝說(shuō)明: 1.安裝bazel, Eigen 1)安裝bazel 本人采用的源碼安裝方式,在https://github.com/bazelbuild/bazel/rel...
最近做了fasttext的 源碼閱讀,分享一下心得。 1.所用數(shù)據(jù)結(jié)構(gòu): 1)Matrix(父類(lèi))->DenseMatrix(子類(lèi)) DenseMatrix類(lèi)里面有...
該方法的優(yōu)化點(diǎn)是將位置信息添加到word2vec的計(jì)算中。 word2vec有兩種實(shí)現(xiàn)方式,一種是cbow,基于context(上下文S詞)預(yù)測(cè)中心詞,另一種是skipgra...
本文中介紹使用無(wú)標(biāo)注樣本提升小數(shù)據(jù)標(biāo)注集合的效果,也就是一種數(shù)據(jù)增強(qiáng)的思想。 一般來(lái)說(shuō),目前在nlp中,使用比較普遍效果公認(rèn)的數(shù)據(jù)增強(qiáng)方法,一是eda,另一種是回譯;EDA是...
最近有個(gè)分類(lèi)任務(wù)要用c++完成,調(diào)研了目前開(kāi)源的深度學(xué)習(xí)的文本分類(lèi)方法,tencent的AILAB在ACL里面發(fā)表的《Deep Pyramid Convolutional N...
使用CUDA安裝9 conda install pytorch=0.4.1 cuda90 -c pytorch 要么 conda install pytorch=0.4.1 ...
xgboost是目前效果最優(yōu)的一款集成模型。那么,xgboost是個(gè)啥東西,xgboost的boost思路又是怎么產(chǎn)生的呢。 閱讀了paper 《greedy functio...
bazel筆記: bazel的編譯是基于工作區(qū),也就是項(xiàng)目的根目錄 1. workspace文件:制定當(dāng)前文件夾就是一個(gè)bazel工作區(qū)。 2.一個(gè)或多個(gè)build文件,如果...