Transductive和Inductive
鏈接:https://www.zhihu.com/question/68275921/answer/1574682746? ? ?來源:知乎
關(guān)于Transductive和Inductive,維基百科上有一段簡潔扼要的定義:
Transduction is reasoning from obeserved, specific (training) cases to specific (test) cases. In contrast, induction is reasoning from obeserved training cases to gerneral rules, which are then applied to the test cases.
如何理解這二者呢?我們先看下其關(guān)于Inductive的定義:
Induction is reasoning from obeserved training cases to gerneral rules, which are then applied to the test cases.
Inductive learning 是從特定任務(wù)到一般任務(wù)的學(xué)習(xí),實(shí)際上,我們傳統(tǒng)的supervised learning都可以理解為是Inductive learning的范疇:基于訓(xùn)練集,我們構(gòu)建并訓(xùn)練模型,而后將其應(yīng)用于測試集的預(yù)測任務(wù)中,訓(xùn)練集與測試集之間是相斥的,即測試集中的任何信息是沒有在訓(xùn)練集中出現(xiàn)過的。即模型本身具備一定的通用性和泛化能力。
再看其關(guān)于Transductive的定義:
Transduction is reasoning from observed, specific (training) cases to specific (test) cases.
大家先理解下上面這句話,其中的obeserved其實(shí)同時修飾著后面的training cases和test cases。相比Inductive learning,Transductive learning擁有著更廣的視角,在模型訓(xùn)練之初,就已經(jīng)窺得訓(xùn)練集(帶標(biāo)簽)和測試集(不帶標(biāo)簽),盡管在訓(xùn)練之時我們不知道測試集的真實(shí)標(biāo)簽,但可以從其特征分布中學(xué)到些額外的信息(如分布聚集性),從而帶來模型效果上的增益。但這也就意味著,只要有新的樣本進(jìn)來,模型就得重新訓(xùn)練。
綜上,總結(jié)一下這二者的區(qū)別:
模型訓(xùn)練:Transductive learning在訓(xùn)練過程中已經(jīng)用到測試集數(shù)據(jù)(不帶標(biāo)簽)中的信息,而Inductive learning僅僅只用到訓(xùn)練集中數(shù)據(jù)的信息。
模型預(yù)測:Transductive learning只能預(yù)測在其訓(xùn)練過程中所用到的樣本(Specific --> Specific),而Inductive learning,只要樣本特征屬于同樣的歐拉空間,即可進(jìn)行預(yù)測(Specific --> Gerneral)
模型復(fù)用性:當(dāng)有新樣本時,Transductive learning需要重新進(jìn)行訓(xùn)練;Inductive Leaning則不需要。
模型計(jì)算量:顯而易見,Transductive Leaning是需要更大的計(jì)算量的,即使其有時候確實(shí)能夠取得相比Inductive learning更好的效果。
其實(shí),我們僅從它們的字面意思上也可以有些理解,Inductive一般翻譯做歸納式,歸納是從特殊到一般的過程,即從訓(xùn)練集中學(xué)習(xí)到某類樣本之間的共性,這種共性是普遍適用的。Transductive一般譯作直推式,則顯得僵硬許多,意味著必須知道它要推論的所有case長什么樣時才能work
?"ground truth"
原文鏈接:https://blog.csdn.net/FrankieHello/article/details/80486167
在機(jī)器學(xué)習(xí)中,“ground truth”一詞指的是訓(xùn)練集對監(jiān)督學(xué)習(xí)技術(shù)的分類的準(zhǔn)確性。這在統(tǒng)計(jì)模型中被用來證明或否定研究假設(shè)?!癵round truth”這個術(shù)語指的是為這個測試收集適當(dāng)?shù)哪繕?biāo)(可證明的)數(shù)據(jù)的過程。
《Outlier Analysis》: However, it is generally much harder to reduce bias in outlier ensembles because of the absence of ground truth.
放到對異常點(diǎn)的檢測方面來理解這個ground truth就好理解了。在對異常點(diǎn)進(jìn)行檢測的時候,通過一些ensemble methods可以在一定程度上提高準(zhǔn)確性,從而減少bias,但是由于對于異常點(diǎn)的定義本身就是一個問題,所以在對這些數(shù)據(jù)進(jìn)行l(wèi)abel的過程中,保證labeled data是正確的異常點(diǎn)也是個問題。
再舉個例子,在圖像識別中,一張圖片是貓還是狗這個沒有什么爭議性,但是如果在時間序列中讓你指出什么樣的數(shù)據(jù)是 normal,什么樣的數(shù)據(jù)是 abnormal,100個人可能會有100種回答,因?yàn)?normal 和 abnormal 之間沒有什么明確的界限,所以在研究時間序列中的 outlier analysis 時,Ground Truth 也是一個不可避免的問題。
監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)
鏈接:http://www.itdecent.cn/p/682c88cee5a8
監(jiān)督學(xué)習(xí)
定義:根據(jù)已有的數(shù)據(jù)集,知道輸入和輸出結(jié)果之間的關(guān)系。根據(jù)這種已知的關(guān)系,訓(xùn)練得到一個最優(yōu)的模型。也就是說,在監(jiān)督學(xué)習(xí)中訓(xùn)練數(shù)據(jù)既有特征(feature)又有標(biāo)簽(label),通過訓(xùn)練,讓機(jī)器可以自己找到特征和標(biāo)簽之間的聯(lián)系,在面對只有特征沒有標(biāo)簽的數(shù)據(jù)時,可以判斷出標(biāo)簽。
?通俗一點(diǎn),可以把機(jī)器學(xué)習(xí)理解為我們教機(jī)器如何做事情。
監(jiān)督學(xué)習(xí)的分類:回歸(Regression)、分類(Classification)??
回歸(Regression):針對于連續(xù)型變量的。
舉個栗子:預(yù)測房屋價格

?通過圖像,我們可以看出直線擬合出來的150k,曲線擬合出來是200k,所以要不斷訓(xùn)練學(xué)習(xí),找到最合適的模型得到擬合數(shù)據(jù)(房價)。
回歸通俗一點(diǎn)就是,對已經(jīng)存在的點(diǎn)(訓(xùn)練數(shù)據(jù))進(jìn)行分析,擬合出適當(dāng)?shù)暮瘮?shù)模型y=f(x),這里y就是數(shù)據(jù)的標(biāo)簽,而對于一個新的自變量x,通過這個函數(shù)模型得到標(biāo)簽y。?
分類(Classification) :針對離散型的,輸出的結(jié)果是有限的。
舉個栗子:估計(jì)腫瘤性質(zhì)
假設(shè)某人發(fā)現(xiàn)了一個乳腺瘤,在乳腺上有個z腫塊,惡性瘤是危險的、有害的;良性瘤是無害的。
假設(shè)在數(shù)據(jù)集中,水平軸是瘤的尺寸,豎直軸是1或0,也可以是Y或N。在已知腫瘤樣例中,惡性的標(biāo)為1,良性的標(biāo)為0。那么,如下,藍(lán)色的樣例便是良性的,紅色的是惡性的。

這個時候,機(jī)器學(xué)習(xí)的任務(wù)就是估計(jì)該腫瘤的性質(zhì),是惡性的還是良性的。
那么分類就派上了用場,在這個例子中就是向模型輸入人的各種數(shù)據(jù)的訓(xùn)練樣本(這里是腫瘤的尺寸,當(dāng)然現(xiàn)實(shí)生活里會用更多的數(shù)據(jù),如年齡等),產(chǎn)生“輸入一個人的數(shù)據(jù),判斷是否患有癌癥”的結(jié)果,結(jié)果必定是離散的,只有“是”或“否”。
所以簡單來說分類就是,要通過分析輸入的特征向量,對于一個新的向量得到其標(biāo)簽。
無監(jiān)督學(xué)習(xí)
定義:我們不知道數(shù)據(jù)集中數(shù)據(jù)、特征之間的關(guān)系,而是要根據(jù)聚類或一定的模型得到數(shù)據(jù)之間的關(guān)系。
可以這么說,比起監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)更像是自學(xué),讓機(jī)器學(xué)會自己做事情,是沒有標(biāo)簽(label)的。
如下圖所示,在無監(jiān)督學(xué)習(xí)中,我們只是給定了一組數(shù)據(jù),我們的目標(biāo)是發(fā)現(xiàn)這組數(shù)據(jù)中的特殊結(jié)構(gòu)。例如我們使用無監(jiān)督學(xué)習(xí)算法會將這組數(shù)據(jù)分成兩個不同的簇,,這樣的算法就叫聚類算法。

生活中的應(yīng)用:
1.Google新聞按照內(nèi)容結(jié)構(gòu)的不同分成財經(jīng),娛樂,體育等不同的標(biāo)簽,這就是無監(jiān)督學(xué)習(xí)中的聚類。
2.根據(jù)給定基因把人群分類。如圖是DNA數(shù)據(jù),對于一組不同的人我們測量他們DNA中對于一個特定基因的表達(dá)程度。然后根據(jù)測量結(jié)果可以用聚類算法將他們分成不同的類型。這就是一種無監(jiān)督學(xué)習(xí), 因?yàn)槲覀冎皇墙o定了一些數(shù)據(jù),而并不知道哪些是第一種類型的人,哪些是第二種類型的人等等。