系統(tǒng)學(xué)習(xí)機(jī)器學(xué)習(xí)之弱監(jiān)督學(xué)習(xí)(二)--半監(jiān)督學(xué)習(xí)綜述x
發(fā)布時(shí)間:2020-09-08 來源: 民主生活會(huì) 點(diǎn)擊:
系統(tǒng)學(xué)習(xí)機(jī)器學(xué)習(xí)之弱監(jiān)督學(xué)習(xí)(二)-- 半監(jiān)督學(xué)習(xí)綜述 一、半監(jiān)督學(xué)習(xí) 1-1 、什么是半監(jiān)督學(xué)習(xí) 讓學(xué)習(xí)器不依賴外界交互、自動(dòng)地利用未標(biāo)記樣本來提升學(xué)習(xí)性能,就是半監(jiān)督學(xué)習(xí)(semi-supervised learning)。
要利用未標(biāo)記樣本,必然要做一些將未標(biāo)記樣本所揭示的數(shù)據(jù)分布信息與類別標(biāo)記相聯(lián)系的假設(shè)。假設(shè)的本質(zhì)是“相似的樣本擁有相似的輸出”。
目前,在半監(jiān)督學(xué)習(xí)中有三個(gè)常用的基本假設(shè)來建立預(yù)測(cè)樣例和學(xué)習(xí)目標(biāo)之間的關(guān)系,有以下三個(gè):
。1)平滑假設(shè)(Smoothness Assumption):位于稠密數(shù)據(jù)區(qū)域的兩個(gè)距離很近的樣例的類標(biāo)簽相似,也就是說,當(dāng)兩個(gè)樣例被稠密數(shù)據(jù)區(qū)域中的邊連接時(shí),它們?cè)诤艽蟮母怕氏掠邢嗤念悩?biāo)簽;相反地,當(dāng)兩個(gè)樣例被稀疏數(shù)據(jù)區(qū)域分開時(shí),它們的類標(biāo)簽趨于不同。
。2)聚類假設(shè)(Cluster Assumption):當(dāng)兩個(gè)樣例位于同一聚類簇時(shí),它們?cè)诤艽蟮母怕氏掠邢嗤念悩?biāo)簽。這個(gè)假設(shè)的等價(jià)定義為低密度分離假設(shè)(Low Sensity Separation Assumption),即分類決策邊界應(yīng)該穿過稀疏數(shù)據(jù)區(qū)域,而避免將稠密數(shù)據(jù)區(qū)域的樣例分到?jīng)Q策邊界兩側(cè)。
聚類假設(shè)是指樣本數(shù)據(jù)間的距離相互比較近時(shí),則他們擁有相同的類別。根據(jù)該假設(shè),分類邊界就必須盡可能地通過數(shù)據(jù)較為稀疏的地方,以能夠避免把密集的樣本數(shù)據(jù)點(diǎn)分到分類邊界的兩側(cè)。在這一假設(shè)的前提下,學(xué)習(xí)算法就可以利用大量未標(biāo)記的樣本數(shù)據(jù)來分析樣本空間中樣本數(shù)據(jù)分布情況,從而指導(dǎo)學(xué)習(xí)算法對(duì)分類邊界進(jìn)行調(diào)整,使其盡量通過樣本數(shù)據(jù)布局比較稀疏的區(qū)域。例如,Joachims 提出的轉(zhuǎn)導(dǎo)支持向量機(jī)算法,在訓(xùn)練過程中,算法不斷修改分類超平面并交換超平面兩側(cè)某些未標(biāo)記的樣本數(shù)據(jù)的標(biāo)記,使得分類邊界在所有訓(xùn)練數(shù)據(jù)上最大化間隔,從而能夠獲得一個(gè)通過數(shù)據(jù)相對(duì)稀疏的區(qū)域,又盡可能正確劃分所有有標(biāo)記的樣本數(shù)據(jù)的分類超平面。
。3)流形假設(shè)(Manifold Assumption):將高維數(shù)據(jù)嵌入到低維流形中,當(dāng)兩個(gè)樣例位于低維流形中的一個(gè)小局部鄰域內(nèi)時(shí),它們具有相似的類標(biāo)簽。
流形假設(shè)的主要思想是同一個(gè)局部鄰域內(nèi)的樣本數(shù)據(jù)具有相似的性質(zhì),因此其標(biāo)記也應(yīng)該是相似。這一假設(shè)體現(xiàn)了決策函數(shù)的局部平滑性。和聚類假設(shè)的主要不同是,聚類假設(shè)主要關(guān)注的是整體特性,流形假設(shè)主要考慮的是模型的局部特性。在該假設(shè)下,未標(biāo)記的樣本數(shù)據(jù)就能夠讓數(shù)據(jù)空間變得更加密集,從而有利于更加標(biāo)準(zhǔn)地分析局部區(qū)域的特征,也使得決策函數(shù)能夠比較完滿地進(jìn)行數(shù)據(jù)擬合。流形假設(shè)有
時(shí)候也可以直接應(yīng)用于半監(jiān)督學(xué)習(xí)算法中。例如,Zhu 等人利用高斯隨機(jī)場(chǎng)和諧波函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí),首先利用訓(xùn)練樣本數(shù)據(jù)建立一個(gè)圖,圖中每個(gè)結(jié)點(diǎn)就是代表一個(gè)樣本,然后根據(jù)流形假設(shè)定義的決策函數(shù)的求得最優(yōu)值,獲得未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記;Zhou 等人利用樣本數(shù)據(jù)間的相似性建立圖,然后讓樣本數(shù)據(jù)的標(biāo)記信息不斷通過圖中的邊的鄰近樣本傳播,直到圖模型達(dá)到全局穩(wěn)定狀態(tài)為止。
從本質(zhì)上說,這三類假設(shè)是一致的,只是相互關(guān)注的重點(diǎn)不同。其中流行假設(shè)更具有普遍性。
SSL 按照統(tǒng)計(jì)學(xué)習(xí)理論的角度包括直推(Transductive)SSL 和歸納(Inductive)SSL 兩類模式。直推 SSL 只處理樣本空間內(nèi)給定的訓(xùn)練數(shù)據(jù),利用訓(xùn)練數(shù)據(jù)中有類標(biāo)簽的樣本和無類標(biāo)簽的樣例進(jìn)行訓(xùn)練,預(yù)測(cè)訓(xùn)練數(shù)據(jù)中無類標(biāo)簽的樣例的類標(biāo)簽;歸納 SSL 處理整個(gè)樣本空間中所有給定和未知的樣例,同時(shí)利用訓(xùn)練數(shù)據(jù)中有類標(biāo)簽的樣本和無類標(biāo)簽的樣例,以及未知的測(cè)試樣例一起進(jìn)行訓(xùn)練,不僅預(yù)測(cè)訓(xùn)練數(shù)據(jù)中無類標(biāo)簽的樣例的類標(biāo)簽,更主要的是預(yù)測(cè)未知的測(cè)試樣例的類標(biāo)簽。即后者假定訓(xùn)練數(shù)據(jù)中的未標(biāo)記樣本并非待測(cè)的數(shù)據(jù),而前者則假定學(xué)習(xí)過程中所考慮的未標(biāo)記樣本恰是待預(yù)測(cè)數(shù)據(jù),學(xué)習(xí)的目的就是在這些未標(biāo)記樣本上獲得最優(yōu)泛化性能。
1-2 、無標(biāo)記樣本的意義
圖片來源:
A Tutorial on Graph-based Semi-Supervised Learning Algorithms for Speech and Spoken Language Processing 左圖表示根據(jù)現(xiàn)有的數(shù)據(jù),我們得到的分類邊界如左圖中藍(lán)線所示。但是當(dāng)我們有了無標(biāo)簽數(shù)據(jù)的分布信息后,兩個(gè)類的分類超平面就變得比較明確了。
因此,使用無標(biāo)簽數(shù)據(jù)有著提高分類邊界的準(zhǔn)確性,提高模型的穩(wěn)健性。
1-3 、偽標(biāo)簽(Pseudo-Labelling )學(xué)習(xí)
來源:
Pseudo-labeling a simple semi-supervised learning method 偽標(biāo)簽學(xué)習(xí)也可以叫簡(jiǎn)單自訓(xùn)練(simple self-training):用有標(biāo)簽數(shù)據(jù)訓(xùn)練一個(gè)分類器,然后用這個(gè)分類器對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類,這樣就會(huì)產(chǎn)生偽標(biāo)簽(pseudo label)或軟標(biāo)簽(soft label),挑選你認(rèn)為分類正確的無標(biāo)簽樣本(此處應(yīng)該有一個(gè)挑選準(zhǔn)則),把選出來的無標(biāo)簽樣本用來訓(xùn)練分類器。
上圖反映的便是簡(jiǎn)單的偽標(biāo)簽學(xué)習(xí)的過程,具體描述如下:
i)使用有標(biāo)簽數(shù)據(jù)訓(xùn)練模型; ii)使用訓(xùn)練的模型為無標(biāo)簽的數(shù)據(jù)預(yù)測(cè)標(biāo)簽,即獲得無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽; iii)使用(ii)獲得的偽標(biāo)簽和標(biāo)簽數(shù)據(jù)集重新訓(xùn)練模型; 最終的模型是(iii)訓(xùn)練得到,用于對(duì)測(cè)試數(shù)據(jù)的最終預(yù)測(cè)。
偽標(biāo)簽方法在實(shí)際的使用過程中,會(huì)在(iii)步中增加一個(gè)參數(shù):采樣比例(sample_rate),表示無標(biāo)簽數(shù)據(jù)中本用作偽標(biāo)簽樣本的比率。
偽標(biāo)簽方法的更加詳細(xì)介紹以及 Python 實(shí)現(xiàn)可以最后的參考文獻(xiàn)。
二、半監(jiān)督學(xué)習(xí)方法 2-1. 簡(jiǎn)單自訓(xùn)練 (simple self-training )
用有標(biāo)簽數(shù)據(jù)訓(xùn)練一個(gè)分類器,然后用這個(gè)分類器對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類,這樣就會(huì)產(chǎn)生偽標(biāo)簽(pseudo label)或軟標(biāo)簽(soft label),挑選你認(rèn)為分類正確的無標(biāo)簽樣本(此處應(yīng)該有一個(gè)挑選準(zhǔn)則 挑選準(zhǔn)則),把選出來的無標(biāo)簽樣本用來訓(xùn)練分類器。
在這里還有兩個(gè)問題需要注意,首先自訓(xùn)練的方法是否可以用到回歸問題中?答案是否定的。因?yàn)榧词辜尤胄碌臄?shù)據(jù)對(duì)于模型也沒有什么改進(jìn)。
生成模型與自訓(xùn)練模型之間是很相似的,區(qū)別在于生成模型采用的是軟標(biāo)簽,而自訓(xùn)練采用的是硬標(biāo)簽,那么問題來了,自訓(xùn)練模型是都可以使用軟標(biāo)簽?zāi)?答案是否定的,如下圖所示
因?yàn)椴粚?duì)標(biāo)簽進(jìn)行改變的話,將這些放入帶標(biāo)簽的數(shù)據(jù)中對(duì)于數(shù)據(jù)的輸出一點(diǎn)改進(jìn)都沒有,輸出的還是原來的數(shù)據(jù)。
2-2. 協(xié)同訓(xùn)練 (co-training )
其實(shí)也是 self-training 的一種,但其思想是好的。假設(shè)每個(gè)數(shù)據(jù)可以從不同的角度(view)進(jìn)行分類,不同角度可以訓(xùn)練出不同的分類器,然后用這些從不同角度
訓(xùn)練出來的分類器對(duì)無標(biāo)簽樣本進(jìn)行分類,再選出認(rèn)為可信的無標(biāo)簽樣本加入訓(xùn)練集中。由于這些分類器從不同角度訓(xùn)練出來的,可以形成一種互補(bǔ),而提高分類精度;就如同從不同角度可以更好地理解事物一樣。
2-3. 半監(jiān)督字典學(xué)習(xí) 其實(shí)也是 self-training 的一種,先是用有標(biāo)簽數(shù)據(jù)作為字典,對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類,挑選出你認(rèn)為分類正確的無標(biāo)簽樣本,加入字典中(此時(shí)的字典就變成了半監(jiān)督字典了)
注意:self-training 有一種低密度分離假設(shè),就是假設(shè)數(shù)據(jù)非黑即白,在兩個(gè)類別的數(shù)據(jù)之間存在著較為明顯的鴻溝,即在兩個(gè)類別之間的邊界處數(shù)據(jù)的密度很低(即數(shù)據(jù)量很好)。
2-4. 基于熵的正則化 這種方法是自訓(xùn)練的進(jìn)階版,因?yàn)橹叭绻苯痈鶕?jù)用有標(biāo)簽數(shù)據(jù)訓(xùn)練出來的模型直接對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類會(huì)有一些武斷,這里采用一種更嚴(yán)密的方法。
因?yàn)樵诘兔芏燃僭O(shè)中認(rèn)為這個(gè)世界是非黑即白的,所以無標(biāo)簽數(shù)據(jù)的概率分布應(yīng)該是區(qū)別度很大的,這里使用熵來表示。將其加入損失函數(shù)中個(gè)可以看到,這個(gè)實(shí)際上可以認(rèn)為是一項(xiàng)正則化項(xiàng),所以也叫基于熵的正則化。訓(xùn)練的話,因?yàn)閮蓚(gè)部分都是可微分的,所以直接使用梯度下降就可以進(jìn)行訓(xùn)練。
2-5. 標(biāo)簽傳播算法 (Label Propagation Algorithm )
是一種基于圖的半監(jiān)督算法,通過構(gòu)造圖結(jié)構(gòu)(數(shù)據(jù)點(diǎn)為頂點(diǎn),點(diǎn)之間的相似性為邊)來尋找 訓(xùn)練數(shù)據(jù)中有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的關(guān)系。是的,只是訓(xùn)練數(shù)據(jù)中,這是一種直推式的半監(jiān)督算法,即只對(duì)訓(xùn)練集中的無標(biāo)簽數(shù)據(jù)進(jìn)行分類,這其實(shí)感覺很像一個(gè)有監(jiān)督分類算法...,但其實(shí)并不是,因?yàn)槠錁?biāo)簽傳播的過程,會(huì)流經(jīng)無標(biāo)簽數(shù)據(jù),即有些無標(biāo)簽數(shù)據(jù)的標(biāo)簽的信息,是從另一些無標(biāo)簽數(shù)據(jù)中流過來的,這就用到了無標(biāo)簽數(shù)據(jù)之間的聯(lián)系 2-6. 半監(jiān)督 SVM (Semi-Supervised Support Vector Machine, 簡(jiǎn)稱 S3VM )
有監(jiān)督學(xué)習(xí)中的傳統(tǒng) SVM 試圖找到一個(gè)劃分超平面,使得兩側(cè)支持向量之間的間隔最大,即“最大劃分間隔”思想。對(duì)于半監(jiān)督學(xué)習(xí),S3VM 則考慮超平面需穿過數(shù)據(jù)低密度的區(qū)域。
TSVM 是半監(jiān)督支持向量機(jī)中的最著名代表,TSVM 主要思想是嘗試將每個(gè)未標(biāo)記樣本分別作為正例或反例,在所有結(jié)果中,尋找一個(gè)在所有樣本上間隔最大的劃分超平面。
TSVM 采用局部搜索的策略來進(jìn)行迭代求解,即首先使用有標(biāo)記樣本集訓(xùn)練出一個(gè)初始 SVM,接著使用該學(xué)習(xí)器對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記,這樣所有樣本都有了標(biāo)記,并基于這些有標(biāo)記的樣本重新訓(xùn)練 SVM,之后再尋找易出錯(cuò)樣本不斷調(diào)整。
2-7. 生成式方法 生成式方法(generative methods)是直接基于生成式模型的方法。此類方法假設(shè)所有數(shù)據(jù)(無論是否有標(biāo)記)都是由同一個(gè)潛在的模型“生成”的。這個(gè)假設(shè)使得我們能通過潛在模型的參數(shù)將未標(biāo)記數(shù)據(jù)與學(xué)習(xí)目標(biāo)聯(lián)系起來,而未標(biāo)記數(shù)據(jù)的標(biāo)記則可看作模型的缺失參數(shù),通常可基于 EM 算法進(jìn)行極大似然估計(jì)求解。此類方法的區(qū)別主要在于生成式模型的假設(shè),不同的模型假設(shè)將產(chǎn)生不同的方法。
在監(jiān)督學(xué)習(xí)中,生成模型的數(shù)據(jù)有 C1 和 C2 兩類數(shù)據(jù)組成,我們統(tǒng)計(jì)數(shù)據(jù)的先驗(yàn)概率 P(C1)和 P(x|C1)。假設(shè)每一類的數(shù)據(jù)都是服從高斯分布的話,我們可以通過分布得到參數(shù)均值 μ1,μ2 和方差 Σ。
利用得到參數(shù)可以知道 P(C1),P(x|C1),μ1,μ2,Σ,并利用這些參數(shù)計(jì)算某一個(gè)例子的類別
在非監(jiān)督學(xué)習(xí)中,如下圖所示,在已知類別的數(shù)據(jù)周圍還有很多類別未知的數(shù)據(jù),如圖中綠色的數(shù)據(jù)。
這個(gè)時(shí)候如果仍在使用之前的數(shù)據(jù)分布明顯是不合理的們需要重新估計(jì)數(shù)據(jù)分布的參數(shù),這個(gè)時(shí)候可能分布是一個(gè)類似于圓形的形狀。這里就需要用偽標(biāo)簽數(shù)據(jù)來幫助估計(jì)新的”P(C1),P(x|C1),μ1,μ2,Σ”。具體可以采用如下的 EM 算法進(jìn)行估計(jì)
首先對(duì)參數(shù)進(jìn)行初始化,之后利用參數(shù)計(jì)算無標(biāo)簽數(shù)據(jù)的后驗(yàn)概率;然后利用得到的后驗(yàn)概率更新模型參數(shù),再返回 step1,循環(huán)執(zhí)行直至模型收斂。這個(gè)算法最終會(huì)達(dá)到收斂,但是初始化對(duì)于結(jié)果的影響也很大。
2-8. 圖半監(jiān)督學(xué)習(xí) 給定一個(gè)數(shù)據(jù)集,我們可將其映射為一個(gè)圖,數(shù)據(jù)集中每個(gè)樣本對(duì)應(yīng)于圖中一個(gè)結(jié)點(diǎn),若兩個(gè)樣本之間的相似度很高(或相關(guān)性很強(qiáng)),則對(duì)應(yīng)結(jié)點(diǎn)之間存在一條邊,邊的“強(qiáng)度”(strength)正比于樣本之間的相似度(或相關(guān)性)。我們可將有標(biāo)記樣本所對(duì)應(yīng)的結(jié)點(diǎn)想象為染過色,而未標(biāo)記樣本所對(duì)應(yīng)的結(jié)點(diǎn)尚未染色。于是,半監(jiān)督學(xué)就對(duì)應(yīng)于“顏色”在圖上擴(kuò)散或傳播的過程。由于一個(gè)圖對(duì)應(yīng)了一個(gè)矩陣,這使得我們能基于矩陣運(yùn)算來進(jìn)行半監(jiān)督學(xué)習(xí)算法的推到和分析。
圖半監(jiān)督學(xué)習(xí)方法在概念上相當(dāng)清晰,且易于通過對(duì)所涉矩陣運(yùn)算的分析來探索算法性質(zhì)。但此類算法的缺陷也相當(dāng)明顯。首先是在存儲(chǔ)開銷上,若樣本數(shù)為 O(m),則算法中所涉及的矩陣規(guī)模未 O(m2),這使得此類算法很難直接處理大規(guī)模數(shù)據(jù);另一方面,由于構(gòu)圖過程僅能考慮訓(xùn)練樣本集,難以判斷新樣本在圖中的位置,因此,在接收到新樣本時(shí),或是將其加入原數(shù)據(jù)集對(duì)圖進(jìn)行重構(gòu)并重新進(jìn)行標(biāo)記傳播,或是需引入額外的預(yù)測(cè)機(jī)制。
2-9. 基于分歧的方法 與生成式方法、半監(jiān)督 SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-base methods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的“分歧”(disagreement)對(duì)未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。
基于分歧的方法只需采用合適的基學(xué)習(xí)器,就能較少受到模型假設(shè)、損失函數(shù)非凸性和數(shù)據(jù)規(guī)模的影響,學(xué)習(xí)方法簡(jiǎn)單有效、理論基礎(chǔ)相對(duì)堅(jiān)實(shí)、適用范圍較為廣泛。為了使用此類方法,需能生成具有顯著分歧、性能尚可的多個(gè)學(xué)習(xí)器,但當(dāng)有標(biāo)記樣本很少,尤其是數(shù)據(jù)不具有多視圖時(shí),要做到這一點(diǎn)并不容易,需有技巧的設(shè)計(jì)。
2-10. 半監(jiān)督深度學(xué)習(xí) 2-10-1.無標(biāo)簽數(shù)據(jù)初始化網(wǎng)絡(luò) 一個(gè)好的初始化可以使得網(wǎng)絡(luò)的結(jié)果準(zhǔn)確率提高,迭代次數(shù)更少。因此該方式即是利用無標(biāo)簽數(shù)據(jù)讓網(wǎng)絡(luò)有一個(gè)好的初始化。
初始化的兩種方法,無監(jiān)督預(yù)訓(xùn)練與偽有監(jiān)督預(yù)訓(xùn)練 無監(jiān)督預(yù)訓(xùn)練:用所有訓(xùn)練數(shù)據(jù)訓(xùn)練自動(dòng)編碼器(AutoEncoder),然后把自編碼網(wǎng)絡(luò)的參數(shù)作為初始參數(shù),用有標(biāo)簽數(shù)據(jù)微調(diào)網(wǎng)絡(luò)(驗(yàn)證集)。
偽有監(jiān)督預(yù)訓(xùn)練:通過半監(jiān)督算法或聚類算法等方式,給無標(biāo)簽數(shù)據(jù)附上偽標(biāo)簽信息,先用這些偽標(biāo)簽信息來預(yù)訓(xùn)練網(wǎng)絡(luò),然后再用有標(biāo)簽數(shù)據(jù)來微調(diào)網(wǎng)絡(luò)(驗(yàn)證集)。
2-10-2.有標(biāo)簽數(shù)據(jù)提取特征的半監(jiān)督學(xué)習(xí) i)用有標(biāo)簽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)(此時(shí)網(wǎng)絡(luò)一般過擬合); ii)通過隱藏層提取特征,以這些特征來用某種分類算法對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類; iii)挑選認(rèn)為分類正確的無標(biāo)簽數(shù)據(jù)加入到訓(xùn)練集; 重復(fù)上述過程。
想法美好,實(shí)際應(yīng)用不太行,誤差會(huì)放大。
2-9-3 網(wǎng)絡(luò)本身的半監(jiān)督學(xué)習(xí)(端到端的半監(jiān)督深度模型)
ICML 2013 的文章 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks:
該文章簡(jiǎn)單的說就是在偽標(biāo)簽學(xué)習(xí)中使用深度學(xué)習(xí)網(wǎng)絡(luò)作為分類器,就是把網(wǎng)絡(luò)對(duì)無標(biāo)簽數(shù)據(jù)的預(yù)測(cè),作為無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽(Pseudo label),用來對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
但方法雖然簡(jiǎn)單,但是效果很好,比單純用有標(biāo)簽數(shù)據(jù)有不少的提升。其主要的貢獻(xiàn)在于損失函數(shù)的構(gòu)造:
損失函數(shù)的第一項(xiàng)是有標(biāo)簽數(shù)據(jù)的損失,第二項(xiàng)是無標(biāo)簽數(shù)據(jù)的損失, 在無標(biāo)簽數(shù)據(jù)的損失中,
為無標(biāo)簽數(shù)據(jù)預(yù)測(cè)得到的偽標(biāo)簽,是直接取網(wǎng)絡(luò)對(duì)無標(biāo)簽數(shù)據(jù)的預(yù)測(cè)的最大值為標(biāo)簽。
其中 決定著無標(biāo)簽數(shù)據(jù)的代價(jià)在網(wǎng)絡(luò)更新的作用,選擇合適
的
很重要,太大性能退化,太小提升有限。
在網(wǎng)絡(luò)初始時(shí),網(wǎng)絡(luò)的預(yù)測(cè)時(shí)不太準(zhǔn)確的,因此生成的偽標(biāo)簽的準(zhǔn)確性也不高。
在初始訓(xùn)練時(shí),
要設(shè)為 0,然后再慢慢增加,論文中給出其增長(zhǎng)函數(shù)。
Semi-Supervised Learning with Ladder Networks:
ladderNet 是有監(jiān)督算法和無監(jiān)督算法的有機(jī)結(jié)合。上面提及到的無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)的思想中所有監(jiān)督和無監(jiān)督是分開的,兩個(gè)階段的訓(xùn)練相互獨(dú)立,并不能稱之為真正的半監(jiān)督學(xué)習(xí)。
無監(jiān)督學(xué)習(xí)是用重構(gòu)樣本進(jìn)行訓(xùn)練,其編碼(學(xué)習(xí)特征)的目的是盡可能地保留原始數(shù)據(jù)的信息;而有監(jiān)督學(xué)習(xí)是用于分類,希望只保留其本質(zhì)特征,去除不必要的特征。
舉例來說:我們的分類任務(wù)判斷一張人臉圖片是單眼皮,還是雙眼皮;那么有監(jiān)督學(xué)習(xí)經(jīng)過訓(xùn)練完畢后,就會(huì)盡可能的把與這個(gè)分類任務(wù)無關(guān)的信息過濾掉,過濾的越好,那么分類的精度將會(huì)更高。
比如一個(gè)人的嘴巴、鼻子信息這些都是與這個(gè)分類任務(wù)無關(guān)的,那么就要盡量的過濾掉。
因此,基于這個(gè)原因以至于一直以來有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)不能很好的兼容在一起。
ladderNet 成功的原因在于損失函數(shù)和 skip connection 。通過在每層的編碼器和解碼器之間添加跳躍連接(skip connection),減輕模型較高層表示細(xì)節(jié)的壓力, 使得無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)能結(jié)合在一起,并在最高層添加分類器。
損失函數(shù)的第一項(xiàng)是有標(biāo)簽樣本數(shù)據(jù)的交叉熵?fù)p失函數(shù),第二項(xiàng)是無監(jiān)督各層噪聲解碼器重構(gòu)誤差歐式損失函數(shù)。
其他的幾種半監(jiān)督網(wǎng)絡(luò)的具體見參考文獻(xiàn)[4]中. Temporal Ensembling for Semi-supervised Learning Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results Mean teacher 是對(duì)模型的參數(shù)進(jìn)行移動(dòng)平均(weight-averaged),使用這個(gè)移動(dòng)平均模型參數(shù)的就是 teacher model 。
其思想有點(diǎn)類似于網(wǎng)絡(luò)模型融合中的隨機(jī)加權(quán)平均(SWA,Stochastic Weight Averaging)。
參考文獻(xiàn) [1]. 周志華. 機(jī)器學(xué)習(xí)[M]. Qing hua da xue chu ban she, 2016. [2].【譯文】偽標(biāo)簽學(xué)習(xí)導(dǎo)論 - 一種半監(jiān)督學(xué)習(xí)方法 [3].半監(jiān)督深度學(xué)習(xí)小結(jié) [4].深度學(xué)習(xí)的自編碼 [5].深度學(xué)習(xí)(三十二)半監(jiān)督階梯網(wǎng)絡(luò)學(xué)習(xí)筆記
相關(guān)熱詞搜索:學(xué)習(xí) 監(jiān)督 綜述
熱點(diǎn)文章閱讀