色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<bdo id="4cps1"></bdo>

<bdo id="4cps1"></bdo>

<pre id="4cps1"></pre>

<pre id="4cps1"><li id="4cps1"></li></pre>

<center id="4cps1"></center>

登錄注冊(cè)寫(xiě)文章

超越one-hot:對(duì)類(lèi)別變量的探索

劉開(kāi)心_8a6c

超越one-hot:對(duì)類(lèi)別變量的探索

原文地址：http://www.kdnuggets.com/2015/12/beyond-one-hot-exploration-categorical-variables.html

通過(guò)給機(jī)器學(xué)習(xí)算法的每一個(gè)類(lèi)別分配一個(gè)整數(shù)，將類(lèi)別變量編碼為數(shù)值變量。在這里，我們探索轉(zhuǎn)換類(lèi)別變量的不同方式及其對(duì)多維數(shù)據(jù)的影響。

在機(jī)器學(xué)習(xí)中，數(shù)據(jù)是國(guó)王。用來(lái)預(yù)測(cè)數(shù)據(jù)對(duì)算法和模型很重要，也很有趣，但是機(jī)器學(xué)習(xí)仍然秉承著“garbage-in-garbage-out”。考慮到這一點(diǎn)，讓我們看一小部分輸入數(shù)據(jù)：類(lèi)別變量。

類(lèi)別變量是表示固定數(shù)量的可能性的變量，而不是連續(xù)數(shù)字的變量。每個(gè)值代表那些有限組或類(lèi)別的一個(gè)衡量標(biāo)準(zhǔn)。它們不同于有序變量的地方在于不論類(lèi)別有多少，從一個(gè)類(lèi)別到另一個(gè)類(lèi)別的距離始終是相等的，而有序變量則存在某種排序規(guī)則。例如：

1. 有序變量：低，中，高

2.類(lèi)別變量：?jiǎn)讨蝸啠峡_來(lái)納，……，紐約

我們后續(xù)使用的機(jī)器學(xué)習(xí)算法往往更傾向于使用數(shù)字作輸入，而非字符串，因此我們需要編寫(xiě)一些方法進(jìn)行轉(zhuǎn)換。

快速感知：本文反復(fù)出現(xiàn)的一個(gè)概念就是維度的概念。簡(jiǎn)單來(lái)說(shuō)，就是數(shù)據(jù)表中的列數(shù)，但是它在最終模型中具有顯著的下游效應(yīng)。在極端情況下，“維度的詛咒（curse of dimensionality）”概念認(rèn)為在高緯空間內(nèi)事物會(huì)停止正常工作。即使在相對(duì)低緯的問(wèn)題中，具有更多維度的數(shù)據(jù)集需要更多的參數(shù)供模型理解，這意味著需要更多數(shù)據(jù)才能學(xué)好這些參數(shù)。如果數(shù)據(jù)量固定，則只添加額外的維度而不增加數(shù)據(jù)量會(huì)對(duì)最終模型的精度造成不利影響。

回到手頭的問(wèn)題：我們想將類(lèi)別別量編碼成數(shù)字變量，但是我們關(guān)心維度的問(wèn)題。最容易想到的答案就是給每個(gè)類(lèi)別分配一個(gè)整數(shù)（假設(shè)我們知道所有可能的類(lèi)別）。這稱(chēng)為順序編碼。它不會(huì)為問(wèn)題增加維度，但是無(wú)形中增加了變量可能原本不存在的順序。

方法

為了進(jìn)行好壞評(píng)估，我寫(xiě)了一個(gè)用不同方法測(cè)試同一數(shù)據(jù)集的python腳本。首先概述整個(gè)過(guò)程：

（1）先收集一個(gè)有類(lèi)別變量的分類(lèi)問(wèn)題的數(shù)據(jù)集

（2）使用一些編碼方法將X數(shù)據(jù)集轉(zhuǎn)換為數(shù)值

（3）用scikit-learn的交叉驗(yàn)證分?jǐn)?shù)和BernouliNB（）分類(lèi)器生成數(shù)據(jù)集的分?jǐn)?shù)（譯者注：一種評(píng)估方式）。每個(gè)數(shù)據(jù)集重復(fù)10x次，并使用所有分?jǐn)?shù)的平均集

（4）存儲(chǔ)數(shù)據(jù)集的維度，平均分?jǐn)?shù)和編碼時(shí)間，然后生成分?jǐn)?shù)

對(duì)UCI數(shù)據(jù)庫(kù)的一些數(shù)據(jù)集，都重復(fù)以上過(guò)程。使用的數(shù)據(jù)集如下：

（1）Car Evaluation

（2）Mushrooms

（3）Splice Junctions

我嘗試了七種不同的編碼方式（4-7的描述來(lái)自statsmodel的文檔）：

（1）Ordinal（序列化）：如上所述。

（2）One-Hot：每個(gè)類(lèi)別有一列，根據(jù)某條數(shù)據(jù)時(shí)候包含這一類(lèi)別用1或0填充。

（3）Binary（二進(jìn)制）：首先需要序列化類(lèi)別，然后將整數(shù)轉(zhuǎn)化為二進(jìn)制編碼，再將二進(jìn)制字符串的數(shù)字拆分成單獨(dú)的列。這較one-hot而言使用更小的維度進(jìn)行編碼，但是有一些距離失真。

（4）Sum：比較給定級(jí)別的相關(guān)變量的平均值與所有級(jí)別上的相關(guān)變量的總平均值。也就是說(shuō)，從第一個(gè)k-1級(jí)別比到k級(jí)別，在本例中，級(jí)別1與所有其他級(jí)別比較，級(jí)別2與所有其他級(jí)別比較，級(jí)別3與所有其他級(jí)別比較。

（5）Polynomial：在類(lèi)別變量中，k=4級(jí)別多項(xiàng)式的系數(shù)的趨勢(shì)是線性、二次或三次的。這里的類(lèi)別變量假設(shè)由基本的等間距的數(shù)字變量表示。因此，這種類(lèi)型的編碼僅用于等間距的有序分類(lèi)變量。

（6）Backward Difference：將一個(gè)級(jí)別變量的平均數(shù)與上一個(gè)級(jí)別相比較。這種類(lèi)型的編碼適用于標(biāo)稱(chēng)型變量或有序變量。

（7）Helmert：將一個(gè)級(jí)別變量的平均數(shù)與前面所有級(jí)別的平均數(shù)相比較。因此，“reverse”這一名稱(chēng)用于對(duì)forward Helmert編碼加以區(qū)分。

結(jié)果

結(jié)論

這不是一個(gè)詳盡的研究，但是似乎二進(jìn)制編碼執(zhí)行更好些，沒(méi)有明顯的維度增加。如預(yù)期的一樣，有序化執(zhí)行不理想。

如想查看源代碼，添加或建議新數(shù)據(jù)集或編碼方式，請(qǐng)見(jiàn)github，歡迎貢獻(xiàn)、評(píng)論與建議。

最后編輯于：2017.12.06 01:42:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

[3/4]我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史（三）：互聯(lián)網(wǎng)時(shí)代 ? 上篇
//我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史（三）：互聯(lián)網(wǎng)時(shí)代 ? 上篇http://www.infoq.com/cn/arti...
葡萄喃喃囈語(yǔ)閱讀 51,683評(píng)論 10贊 200
面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議
國(guó)家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)（Q/GDW）- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報(bào)批稿：20170802 前言：排版 ...
庭說(shuō)閱讀 12,365評(píng)論 6贊 13

面向開(kāi)發(fā)人員的機(jī)器學(xué)習(xí)指南
首頁(yè) 資訊文章資源小組相親登錄注冊(cè) 首頁(yè) 最新文章 IT 職場(chǎng) 前端后端移動(dòng)端數(shù)據(jù)庫(kù) 運(yùn)維其他...
Helen_Cat閱讀 4,151評(píng)論 1贊 10
出售時(shí)間之前你要牢記的三條鐵律（下）
鐵律二：重視價(jià)值忽略估值。橋水資本的老大達(dá)里奧是這樣建議的；不要讓自己的估值過(guò)分超過(guò)自己的實(shí)際價(jià)值。人生注定需...
花開(kāi)十三月閱讀 257評(píng)論 0贊 0
因?yàn)槲蚁矚g你啊.
她是我的小學(xué)同學(xué)，不知道是什么原因讓我們兩個(gè)在一起了。那天是我表的白，后來(lái)她寫(xiě)信問(wèn)我那天是不是開(kāi)玩笑或者又是真心話...
da5dc60dc971閱讀 217評(píng)論 0贊 1

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機(jī)看全文

晴隆县| 新晃| 贡觉县| 信宜市| 兴业县| 凤庆县| 湖南省| 体育| 高密市| 比如县| 兴国县| 东港市| 天门市| 安龙县| 河曲县| 苍溪县| 大足县| 保定市| 潞城市| 库尔勒市| 安新县| 宽甸| 宁陕县| 大新县| 烟台市| 根河市| 安岳县| 弋阳县| 观塘区| 城固县| 偃师市| 卢湾区| 南溪县| 汝州市| 潞城市| 惠来县| 罗田县| 湟源县| 乐都县| 纳雍县| 龙口市|

<form id="4j7hq"><strong id="4j7hq"><p id="4j7hq"></p></strong></form>