Clustering 算法概念 算法類(lèi)型 K-means算法是非監(jiān)督學(xué)習(xí)聚類(lèi)(clustering)中的經(jīng)典算法,數(shù)據(jù)挖掘的十大經(jīng)典算法之一。 ...
詞袋模型(Bag of words,簡(jiǎn)稱(chēng) BoW ) 詞袋模型假設(shè)我們不考慮文本中詞與詞之間的上下文關(guān)系,僅僅只考慮所有詞的權(quán)重。而權(quán)重與詞在文...
Databases Creating a Table NOT NULL - Each row must contain a value for ...
Week 8 MapReduce MapReduce 思想 分而治之 把一個(gè)復(fù)雜的任務(wù)劃分為若干個(gè)簡(jiǎn)單的任務(wù)分別來(lái)做 原因 在現(xiàn)實(shí)情況下,我們要...
訓(xùn)練集和測(cè)試集 train set 用來(lái)訓(xùn)練模型,估計(jì)參數(shù) test set 用來(lái)測(cè)試和評(píng)估訓(xùn)練出來(lái)的模型好壞,不能用于訓(xùn)練模型 我們將所有數(shù)據(jù)...
邏輯回歸說(shuō)的是數(shù)據(jù)的分類(lèi),估計(jì)的是一個(gè)離散值 線(xiàn)性回歸用來(lái)估計(jì)某個(gè)連續(xù)值,如果用線(xiàn)性回歸來(lái)歸類(lèi),預(yù)測(cè)值是0.1 0.2 而不是1 和 0。 根據(jù)...
概念 label 試圖預(yù)測(cè)的變量 feature 預(yù)測(cè)依據(jù)的變量 example 包含一對(duì) label 和 feature,用來(lái)訓(xùn)練模型 Tra...
Week 4 數(shù)據(jù)排序 按值排序DataFrame.sort_values(by = ['列一','列二'],axis = 0, ascendi...
Dataframe DataFrame 是一種二維的數(shù)據(jù)結(jié)構(gòu),非常接近于excel形式。它的豎行稱(chēng)之為columns,橫行稱(chēng)之為index,也就...