計算機生成的數(shù)據(jù)集
用于分類任務(wù)和聚類任務(wù),這些函數(shù)產(chǎn)生樣本特征向量矩陣以及對應(yīng)的類別標(biāo)簽集合。
| 數(shù)據(jù)集 | 簡介 |
|---|---|
| make_blobs | 多類單標(biāo)簽數(shù)據(jù)集,為每個類分配一個或者多個正態(tài)分布的點集,提供了控制每個數(shù)據(jù)點的參數(shù):中心點(均值),標(biāo)準(zhǔn)差,常用于聚類算法。 |
| make_classification | 多類單標(biāo)簽數(shù)據(jù)集,為每個類分配了一個或者多個正態(tài)分布的點集。提供了為數(shù)據(jù)集添加噪聲的方式,包括維度相性,無效特征和冗余特征等。 |
| make_gaussian_quantiles | 將一個單高斯分布的點集活粉為兩個數(shù)量均等的點集,作為兩類。 |
| make_hastie_10_2 | 產(chǎn)生一個相似的二元分類器數(shù)據(jù)集,有10個維度。 |
| make_circles/make_moons | 產(chǎn)生二維分類數(shù)據(jù)集來測試某些算法(e.g.centroid-based clustering或linear classfication)的性能??梢詾閿?shù)據(jù)集添加噪聲,可以為二元分類器產(chǎn)生一些球形判決表面的數(shù)據(jù)。 |
用于多標(biāo)簽分類任務(wù)
| 數(shù)據(jù)集 | 簡介 |
|---|---|
| make_multilabel_classification | 產(chǎn)生多類多標(biāo)簽隨機樣本,這些樣本模擬了從很多話題的混合分布中抽取的詞袋模型,每個文檔的話題數(shù)量符合泊松分布,話題本身則從一個固定的隨機分布中抽取出來,同樣的,單詞數(shù)量也是泊松分布抽取,句子則是從多項式抽取。 |
用于回歸任務(wù)的
| 數(shù)據(jù)集 | 簡介 |
|---|---|
| make_regression | 產(chǎn)生回歸任務(wù)的數(shù)據(jù)集,期望目標(biāo)輸出是隨機特征的稀疏隨機線性組合,并且附帶有噪聲,它的有用的特征可能是不相關(guān)的,或者低秩的(引起目標(biāo)值的變動的只有少量的集合特征) |
| make_sparse_uncorrelated | 產(chǎn)生四個特征的線性組合(固定參數(shù))作為期望目標(biāo)輸出 |
| make_friedman1 | 采用了多項式和正弦變換 |
| make_friedman2 | 包含了特征的乘積和互換操作 |
| make_friedman3 | 類似于arctan變換 |
用于流行學(xué)習(xí)的
| 數(shù)據(jù)集 | 簡介 |
|---|---|
| make_s_curve | 生成S型曲線數(shù)據(jù)集 |
| make_swiss_roll | 生成瑞士卷曲線數(shù)據(jù)集 |
用于因子分解的
| 數(shù)據(jù)集 | 簡介 |
|---|---|
| make_low_rank_matrix | |
| make_sparse_coded_signal | |
| nake_spd_matrix | 產(chǎn)生的是隨機的堆成的正定矩陣 |
| make_sparse_spd_matrix | 產(chǎn)生的是稀疏的堆成正定矩陣 |
make_blobs()

image
make_classification()

image
make_moons()

image
make_circles()

image
svmlight/libsvm格式的數(shù)據(jù)集
svmlight/libsvm的每一行樣本的存放格式
<label> <feature-id>:<feature-value> <feature-id>:<feature-value>...
使用下面的方式導(dǎo)入該格式的數(shù)據(jù)集
X_train, y_train = sklearn.datasets.load_svmlight_file('train.txt')
還可以使用下面的方式將訓(xùn)練集和測試集一起導(dǎo)入,可以保證X_train和X_test有同樣數(shù)目的特征
X_train, y_train, X_test, y_test = sklearn.datasets.load_svmlight_file(('train.txt', 'test.txt'))