Clustering 算法概念 算法類型 K-means算法是非監(jiān)督學(xué)習(xí)聚類(clustering)中的經(jīng)典算法,數(shù)據(jù)挖掘的十大經(jīng)典算法之一。 ...
詞袋模型(Bag of words,簡稱 BoW ) 詞袋模型假設(shè)我們不考慮文本中詞與詞之間的上下文關(guān)系,僅僅只考慮所有詞的權(quán)重。而權(quán)重與詞在文...
Databases Creating a Table NOT NULL - Each row must contain a value for ...
Week 8 MapReduce MapReduce 思想 分而治之 把一個復(fù)雜的任務(wù)劃分為若干個簡單的任務(wù)分別來做 原因 在現(xiàn)實情況下,我們要...
訓(xùn)練集和測試集 train set 用來訓(xùn)練模型,估計參數(shù) test set 用來測試和評估訓(xùn)練出來的模型好壞,不能用于訓(xùn)練模型 我們將所有數(shù)據(jù)...
邏輯回歸說的是數(shù)據(jù)的分類,估計的是一個離散值 線性回歸用來估計某個連續(xù)值,如果用線性回歸來歸類,預(yù)測值是0.1 0.2 而不是1 和 0。 根據(jù)...
概念 label 試圖預(yù)測的變量 feature 預(yù)測依據(jù)的變量 example 包含一對 label 和 feature,用來訓(xùn)練模型 Tra...
Week 4 數(shù)據(jù)排序 按值排序DataFrame.sort_values(by = ['列一','列二'],axis = 0, ascendi...
Dataframe DataFrame 是一種二維的數(shù)據(jù)結(jié)構(gòu),非常接近于excel形式。它的豎行稱之為columns,橫行稱之為index,也就...