www.黄片视频在线播放,欧美精品日韩精品一级黄,成年男女免费视频网站,99久久久国产精品免费牛牛四川,99久久精品国产9999高清,乱人妻中文字幕视频4399,亚洲男人在线视频观看

<span id="eoty7"></span>

<label id="eoty7"></label><li id="eoty7"></li>

民主生活會(huì) 蒲公英文摘 > 范文大全 > 民主生活會(huì) >

系統(tǒng)學(xué)習(xí)機(jī)器學(xué)習(xí)之弱監(jiān)督學(xué)習(xí)（二）--半監(jiān)督學(xué)習(xí)綜述x

發(fā)布時(shí)間:2020-09-08 來源: 民主生活會(huì) 點(diǎn)擊：

　系統(tǒng)學(xué)習(xí)機(jī)器學(xué)習(xí)之弱監(jiān)督學(xué)習(xí)（二）-- 半監(jiān)督學(xué)習(xí)綜述一、半監(jiān)督學(xué)習(xí) 1-1 、什么是半監(jiān)督學(xué)習(xí) 讓學(xué)習(xí)器不依賴外界交互、自動(dòng)地利用未標(biāo)記樣本來提升學(xué)習(xí)性能，就是半監(jiān)督學(xué)習(xí)（semi-supervised learning）。

　要利用未標(biāo)記樣本，必然要做一些將未標(biāo)記樣本所揭示的數(shù)據(jù)分布信息與類別標(biāo)記相聯(lián)系的假設(shè)。假設(shè)的本質(zhì)是“相似的樣本擁有相似的輸出”。

　目前，在半監(jiān)督學(xué)習(xí)中有三個(gè)常用的基本假設(shè)來建立預(yù)測(cè)樣例和學(xué)習(xí)目標(biāo)之間的關(guān)系，有以下三個(gè)：

�。�1）平滑假設(shè)(Smoothness Assumption)：位于稠密數(shù)據(jù)區(qū)域的兩個(gè)距離很近的樣例的類標(biāo)簽相似，也就是說，當(dāng)兩個(gè)樣例被稠密數(shù)據(jù)區(qū)域中的邊連接時(shí)，它們?cè)诤艽蟮母怕氏掠邢嗤念悩?biāo)簽；相反地，當(dāng)兩個(gè)樣例被稀疏數(shù)據(jù)區(qū)域分開時(shí)，它們的類標(biāo)簽趨于不同。

�。�2）聚類假設(shè)(Cluster Assumption)：當(dāng)兩個(gè)樣例位于同一聚類簇時(shí)，它們?cè)诤艽蟮母怕氏掠邢嗤念悩?biāo)簽。這個(gè)假設(shè)的等價(jià)定義為低密度分離假設(shè)(Low Sensity Separation Assumption)，即分類決策邊界應(yīng)該穿過稀疏數(shù)據(jù)區(qū)域，而避免將稠密數(shù)據(jù)區(qū)域的樣例分到?jīng)Q策邊界兩側(cè)。

　聚類假設(shè)是指樣本數(shù)據(jù)間的距離相互比較近時(shí)，則他們擁有相同的類別。根據(jù)該假設(shè)，分類邊界就必須盡可能地通過數(shù)據(jù)較為稀疏的地方，以能夠避免把密集的樣本數(shù)據(jù)點(diǎn)分到分類邊界的兩側(cè)。在這一假設(shè)的前提下，學(xué)習(xí)算法就可以利用大量未標(biāo)記的樣本數(shù)據(jù)來分析樣本空間中樣本數(shù)據(jù)分布情況，從而指導(dǎo)學(xué)習(xí)算法對(duì)分類邊界進(jìn)行調(diào)整，使其盡量通過樣本數(shù)據(jù)布局比較稀疏的區(qū)域。例如，Joachims 提出的轉(zhuǎn)導(dǎo)支持向量機(jī)算法，在訓(xùn)練過程中，算法不斷修改分類超平面并交換超平面兩側(cè)某些未標(biāo)記的樣本數(shù)據(jù)的標(biāo)記，使得分類邊界在所有訓(xùn)練數(shù)據(jù)上最大化間隔，從而能夠獲得一個(gè)通過數(shù)據(jù)相對(duì)稀疏的區(qū)域，又盡可能正確劃分所有有標(biāo)記的樣本數(shù)據(jù)的分類超平面。

�。�3）流形假設(shè)(Manifold Assumption)：將高維數(shù)據(jù)嵌入到低維流形中，當(dāng)兩個(gè)樣例位于低維流形中的一個(gè)小局部鄰域內(nèi)時(shí)，它們具有相似的類標(biāo)簽。

　流形假設(shè)的主要思想是同一個(gè)局部鄰域內(nèi)的樣本數(shù)據(jù)具有相似的性質(zhì)，因此其標(biāo)記也應(yīng)該是相似。這一假設(shè)體現(xiàn)了決策函數(shù)的局部平滑性。和聚類假設(shè)的主要不同是，聚類假設(shè)主要關(guān)注的是整體特性，流形假設(shè)主要考慮的是模型的局部特性。在該假設(shè)下，未標(biāo)記的樣本數(shù)據(jù)就能夠讓數(shù)據(jù)空間變得更加密集，從而有利于更加標(biāo)準(zhǔn)地分析局部區(qū)域的特征，也使得決策函數(shù)能夠比較完滿地進(jìn)行數(shù)據(jù)擬合。流形假設(shè)有

　時(shí)候也可以直接應(yīng)用于半監(jiān)督學(xué)習(xí)算法中。例如，Zhu 等人利用高斯隨機(jī)場(chǎng)和諧波函數(shù)進(jìn)行半監(jiān)督學(xué)習(xí)，首先利用訓(xùn)練樣本數(shù)據(jù)建立一個(gè)圖，圖中每個(gè)結(jié)點(diǎn)就是代表一個(gè)樣本，然后根據(jù)流形假設(shè)定義的決策函數(shù)的求得最優(yōu)值，獲得未標(biāo)記樣本數(shù)據(jù)的最優(yōu)標(biāo)記；Zhou 等人利用樣本數(shù)據(jù)間的相似性建立圖，然后讓樣本數(shù)據(jù)的標(biāo)記信息不斷通過圖中的邊的鄰近樣本傳播，直到圖模型達(dá)到全局穩(wěn)定狀態(tài)為止。

　從本質(zhì)上說，這三類假設(shè)是一致的,只是相互關(guān)注的重點(diǎn)不同。其中流行假設(shè)更具有普遍性。

　SSL 按照統(tǒng)計(jì)學(xué)習(xí)理論的角度包括直推(Transductive)SSL 和歸納(Inductive)SSL 兩類模式。直推 SSL 只處理樣本空間內(nèi)給定的訓(xùn)練數(shù)據(jù)，利用訓(xùn)練數(shù)據(jù)中有類標(biāo)簽的樣本和無類標(biāo)簽的樣例進(jìn)行訓(xùn)練，預(yù)測(cè)訓(xùn)練數(shù)據(jù)中無類標(biāo)簽的樣例的類標(biāo)簽；歸納 SSL 處理整個(gè)樣本空間中所有給定和未知的樣例，同時(shí)利用訓(xùn)練數(shù)據(jù)中有類標(biāo)簽的樣本和無類標(biāo)簽的樣例，以及未知的測(cè)試樣例一起進(jìn)行訓(xùn)練，不僅預(yù)測(cè)訓(xùn)練數(shù)據(jù)中無類標(biāo)簽的樣例的類標(biāo)簽，更主要的是預(yù)測(cè)未知的測(cè)試樣例的類標(biāo)簽。即后者假定訓(xùn)練數(shù)據(jù)中的未標(biāo)記樣本并非待測(cè)的數(shù)據(jù)，而前者則假定學(xué)習(xí)過程中所考慮的未標(biāo)記樣本恰是待預(yù)測(cè)數(shù)據(jù)，學(xué)習(xí)的目的就是在這些未標(biāo)記樣本上獲得最優(yōu)泛化性能。

　1-2 、無標(biāo)記樣本的意義

　圖片來源：

　A Tutorial on Graph-based Semi-Supervised Learning Algorithms for Speech and Spoken Language Processing 左圖表示根據(jù)現(xiàn)有的數(shù)據(jù)，我們得到的分類邊界如左圖中藍(lán)線所示。但是當(dāng)我們有了無標(biāo)簽數(shù)據(jù)的分布信息后，兩個(gè)類的分類超平面就變得比較明確了。

　因此，使用無標(biāo)簽數(shù)據(jù)有著提高分類邊界的準(zhǔn)確性，提高模型的穩(wěn)健性。

　1-3 、偽標(biāo)簽（Pseudo-Labelling ）學(xué)習(xí)

　來源：

　Pseudo-labeling a simple semi-supervised learning method 偽標(biāo)簽學(xué)習(xí)也可以叫簡(jiǎn)單自訓(xùn)練（simple self-training）：用有標(biāo)簽數(shù)據(jù)訓(xùn)練一個(gè)分類器，然后用這個(gè)分類器對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類，這樣就會(huì)產(chǎn)生偽標(biāo)簽（pseudo label）或軟標(biāo)簽（soft label），挑選你認(rèn)為分類正確的無標(biāo)簽樣本（此處應(yīng)該有一個(gè)挑選準(zhǔn)則），把選出來的無標(biāo)簽樣本用來訓(xùn)練分類器。

　上圖反映的便是簡(jiǎn)單的偽標(biāo)簽學(xué)習(xí)的過程，具體描述如下：

　i)使用有標(biāo)簽數(shù)據(jù)訓(xùn)練模型； ii)使用訓(xùn)練的模型為無標(biāo)簽的數(shù)據(jù)預(yù)測(cè)標(biāo)簽，即獲得無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽； iii)使用(ii)獲得的偽標(biāo)簽和標(biāo)簽數(shù)據(jù)集重新訓(xùn)練模型；最終的模型是(iii)訓(xùn)練得到，用于對(duì)測(cè)試數(shù)據(jù)的最終預(yù)測(cè)。

　偽標(biāo)簽方法在實(shí)際的使用過程中，會(huì)在(iii)步中增加一個(gè)參數(shù)：采樣比例（sample_rate），表示無標(biāo)簽數(shù)據(jù)中本用作偽標(biāo)簽樣本的比率。

　偽標(biāo)簽方法的更加詳細(xì)介紹以及 Python 實(shí)現(xiàn)可以最后的參考文獻(xiàn)。

　二、半監(jiān)督學(xué)習(xí)方法 2-1. 簡(jiǎn)單自訓(xùn)練（simple self-training ）

　用有標(biāo)簽數(shù)據(jù)訓(xùn)練一個(gè)分類器，然后用這個(gè)分類器對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類，這樣就會(huì)產(chǎn)生偽標(biāo)簽（pseudo label）或軟標(biāo)簽（soft label），挑選你認(rèn)為分類正確的無標(biāo)簽樣本（此處應(yīng)該有一個(gè)挑選準(zhǔn)則挑選準(zhǔn)則），把選出來的無標(biāo)簽樣本用來訓(xùn)練分類器。

　在這里還有兩個(gè)問題需要注意，首先自訓(xùn)練的方法是否可以用到回歸問題中？答案是否定的。因?yàn)榧词辜尤胄碌臄?shù)據(jù)對(duì)于模型也沒有什么改進(jìn)。

　生成模型與自訓(xùn)練模型之間是很相似的，區(qū)別在于生成模型采用的是軟標(biāo)簽，而自訓(xùn)練采用的是硬標(biāo)簽，那么問題來了，自訓(xùn)練模型是都可以使用軟標(biāo)簽?zāi)�？答案是否定的，如下圖所示

　因?yàn)椴粚?duì)標(biāo)簽進(jìn)行改變的話，將這些放入帶標(biāo)簽的數(shù)據(jù)中對(duì)于數(shù)據(jù)的輸出一點(diǎn)改進(jìn)都沒有，輸出的還是原來的數(shù)據(jù)。

　2-2. 協(xié)同訓(xùn)練（co-training ）

　其實(shí)也是 self-training 的一種，但其思想是好的。假設(shè)每個(gè)數(shù)據(jù)可以從不同的角度（view）進(jìn)行分類，不同角度可以訓(xùn)練出不同的分類器，然后用這些從不同角度

　訓(xùn)練出來的分類器對(duì)無標(biāo)簽樣本進(jìn)行分類，再選出認(rèn)為可信的無標(biāo)簽樣本加入訓(xùn)練集中。由于這些分類器從不同角度訓(xùn)練出來的，可以形成一種互補(bǔ)，而提高分類精度；就如同從不同角度可以更好地理解事物一樣。

　2-3. 半監(jiān)督字典學(xué)習(xí) 其實(shí)也是 self-training 的一種，先是用有標(biāo)簽數(shù)據(jù)作為字典，對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類，挑選出你認(rèn)為分類正確的無標(biāo)簽樣本，加入字典中（此時(shí)的字典就變成了半監(jiān)督字典了）

　注意：self-training 有一種低密度分離假設(shè)，就是假設(shè)數(shù)據(jù)非黑即白，在兩個(gè)類別的數(shù)據(jù)之間存在著較為明顯的鴻溝，即在兩個(gè)類別之間的邊界處數(shù)據(jù)的密度很低（即數(shù)據(jù)量很好）。

　2-4. 基于熵的正則化這種方法是自訓(xùn)練的進(jìn)階版，因?yàn)橹叭绻苯痈鶕?jù)用有標(biāo)簽數(shù)據(jù)訓(xùn)練出來的模型直接對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類會(huì)有一些武斷，這里采用一種更嚴(yán)密的方法。

　因?yàn)樵诘兔芏燃僭O(shè)中認(rèn)為這個(gè)世界是非黑即白的，所以無標(biāo)簽數(shù)據(jù)的概率分布應(yīng)該是區(qū)別度很大的，這里使用熵來表示。將其加入損失函數(shù)中個(gè)可以看到，這個(gè)實(shí)際上可以認(rèn)為是一項(xiàng)正則化項(xiàng)，所以也叫基于熵的正則化。訓(xùn)練的話，因?yàn)閮蓚€(gè)部分都是可微分的，所以直接使用梯度下降就可以進(jìn)行訓(xùn)練。

　2-5. 標(biāo)簽傳播算法（Label Propagation Algorithm ）

　是一種基于圖的半監(jiān)督算法，通過構(gòu)造圖結(jié)構(gòu)（數(shù)據(jù)點(diǎn)為頂點(diǎn)，點(diǎn)之間的相似性為邊）來尋找訓(xùn)練數(shù)據(jù)中有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù)的關(guān)系。是的，只是訓(xùn)練數(shù)據(jù)中，這是一種直推式的半監(jiān)督算法，即只對(duì)訓(xùn)練集中的無標(biāo)簽數(shù)據(jù)進(jìn)行分類，這其實(shí)感覺很像一個(gè)有監(jiān)督分類算法...，但其實(shí)并不是，因?yàn)槠錁?biāo)簽傳播的過程，會(huì)流經(jīng)無標(biāo)簽數(shù)據(jù)，即有些無標(biāo)簽數(shù)據(jù)的標(biāo)簽的信息，是從另一些無標(biāo)簽數(shù)據(jù)中流過來的，這就用到了無標(biāo)簽數(shù)據(jù)之間的聯(lián)系 2-6. 半監(jiān)督 SVM （Semi-Supervised Support Vector Machine, 簡(jiǎn)稱 S3VM ）

　有監(jiān)督學(xué)習(xí)中的傳統(tǒng) SVM 試圖找到一個(gè)劃分超平面，使得兩側(cè)支持向量之間的間隔最大，即“最大劃分間隔”思想。對(duì)于半監(jiān)督學(xué)習(xí)，S3VM 則考慮超平面需穿過數(shù)據(jù)低密度的區(qū)域。

　TSVM 是半監(jiān)督支持向量機(jī)中的最著名代表，TSVM 主要思想是嘗試將每個(gè)未標(biāo)記樣本分別作為正例或反例，在所有結(jié)果中，尋找一個(gè)在所有樣本上間隔最大的劃分超平面。

　TSVM 采用局部搜索的策略來進(jìn)行迭代求解，即首先使用有標(biāo)記樣本集訓(xùn)練出一個(gè)初始 SVM，接著使用該學(xué)習(xí)器對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記，這樣所有樣本都有了標(biāo)記，并基于這些有標(biāo)記的樣本重新訓(xùn)練 SVM，之后再尋找易出錯(cuò)樣本不斷調(diào)整。

　2-7. 生成式方法生成式方法（generative methods）是直接基于生成式模型的方法。此類方法假設(shè)所有數(shù)據(jù)（無論是否有標(biāo)記）都是由同一個(gè)潛在的模型“生成”的。這個(gè)假設(shè)使得我們能通過潛在模型的參數(shù)將未標(biāo)記數(shù)據(jù)與學(xué)習(xí)目標(biāo)聯(lián)系起來，而未標(biāo)記數(shù)據(jù)的標(biāo)記則可看作模型的缺失參數(shù)，通常可基于 EM 算法進(jìn)行極大似然估計(jì)求解。此類方法的區(qū)別主要在于生成式模型的假設(shè)，不同的模型假設(shè)將產(chǎn)生不同的方法。

　在監(jiān)督學(xué)習(xí)中，生成模型的數(shù)據(jù)有 C1 和 C2 兩類數(shù)據(jù)組成，我們統(tǒng)計(jì)數(shù)據(jù)的先驗(yàn)概率 P(C1)和 P(x|C1)。假設(shè)每一類的數(shù)據(jù)都是服從高斯分布的話，我們可以通過分布得到參數(shù)均值 μ1,μ2 和方差 Σ。

　利用得到參數(shù)可以知道 P(C1)，P(x|C1)，μ1,μ2，Σ，并利用這些參數(shù)計(jì)算某一個(gè)例子的類別

　在非監(jiān)督學(xué)習(xí)中，如下圖所示，在已知類別的數(shù)據(jù)周圍還有很多類別未知的數(shù)據(jù)，如圖中綠色的數(shù)據(jù)。

　這個(gè)時(shí)候如果仍在使用之前的數(shù)據(jù)分布明顯是不合理的們需要重新估計(jì)數(shù)據(jù)分布的參數(shù)，這個(gè)時(shí)候可能分布是一個(gè)類似于圓形的形狀。這里就需要用偽標(biāo)簽數(shù)據(jù)來幫助估計(jì)新的”P(C1)，P(x|C1)，μ1,μ2，Σ”。具體可以采用如下的 EM 算法進(jìn)行估計(jì)

　首先對(duì)參數(shù)進(jìn)行初始化，之后利用參數(shù)計(jì)算無標(biāo)簽數(shù)據(jù)的后驗(yàn)概率；然后利用得到的后驗(yàn)概率更新模型參數(shù)，再返回 step1，循環(huán)執(zhí)行直至模型收斂。這個(gè)算法最終會(huì)達(dá)到收斂，但是初始化對(duì)于結(jié)果的影響也很大。

　2-8. 圖半監(jiān)督學(xué)習(xí) 給定一個(gè)數(shù)據(jù)集，我們可將其映射為一個(gè)圖，數(shù)據(jù)集中每個(gè)樣本對(duì)應(yīng)于圖中一個(gè)結(jié)點(diǎn)，若兩個(gè)樣本之間的相似度很高（或相關(guān)性很強(qiáng)），則對(duì)應(yīng)結(jié)點(diǎn)之間存在一條邊，邊的“強(qiáng)度”（strength）正比于樣本之間的相似度（或相關(guān)性）。我們可將有標(biāo)記樣本所對(duì)應(yīng)的結(jié)點(diǎn)想象為染過色，而未標(biāo)記樣本所對(duì)應(yīng)的結(jié)點(diǎn)尚未染色。于是，半監(jiān)督學(xué)就對(duì)應(yīng)于“顏色”在圖上擴(kuò)散或傳播的過程。由于一個(gè)圖對(duì)應(yīng)了一個(gè)矩陣，這使得我們能基于矩陣運(yùn)算來進(jìn)行半監(jiān)督學(xué)習(xí)算法的推到和分析。

　圖半監(jiān)督學(xué)習(xí)方法在概念上相當(dāng)清晰，且易于通過對(duì)所涉矩陣運(yùn)算的分析來探索算法性質(zhì)。但此類算法的缺陷也相當(dāng)明顯。首先是在存儲(chǔ)開銷上，若樣本數(shù)為 O(m)，則算法中所涉及的矩陣規(guī)模未 O(m2)，這使得此類算法很難直接處理大規(guī)模數(shù)據(jù)；另一方面，由于構(gòu)圖過程僅能考慮訓(xùn)練樣本集，難以判斷新樣本在圖中的位置，因此，在接收到新樣本時(shí)，或是將其加入原數(shù)據(jù)集對(duì)圖進(jìn)行重構(gòu)并重新進(jìn)行標(biāo)記傳播，或是需引入額外的預(yù)測(cè)機(jī)制。

　2-9. 基于分歧的方法與生成式方法、半監(jiān)督 SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)器利用未標(biāo)記數(shù)據(jù)不同，基于分歧的方法（disagreement-base methods）使用多學(xué)習(xí)器，而學(xué)習(xí)器之間的“分歧”（disagreement）對(duì)未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。

　基于分歧的方法只需采用合適的基學(xué)習(xí)器，就能較少受到模型假設(shè)、損失函數(shù)非凸性和數(shù)據(jù)規(guī)模的影響，學(xué)習(xí)方法簡(jiǎn)單有效、理論基礎(chǔ)相對(duì)堅(jiān)實(shí)、適用范圍較為廣泛。為了使用此類方法，需能生成具有顯著分歧、性能尚可的多個(gè)學(xué)習(xí)器，但當(dāng)有標(biāo)記樣本很少，尤其是數(shù)據(jù)不具有多視圖時(shí)，要做到這一點(diǎn)并不容易，需有技巧的設(shè)計(jì)。

　2-10. 半監(jiān)督深度學(xué)習(xí) 2-10-1.無標(biāo)簽數(shù)據(jù)初始化網(wǎng)絡(luò) 一個(gè)好的初始化可以使得網(wǎng)絡(luò)的結(jié)果準(zhǔn)確率提高，迭代次數(shù)更少。因此該方式即是利用無標(biāo)簽數(shù)據(jù)讓網(wǎng)絡(luò)有一個(gè)好的初始化。

　初始化的兩種方法，無監(jiān)督預(yù)訓(xùn)練與偽有監(jiān)督預(yù)訓(xùn)練無監(jiān)督預(yù)訓(xùn)練：用所有訓(xùn)練數(shù)據(jù)訓(xùn)練自動(dòng)編碼器（AutoEncoder），然后把自編碼網(wǎng)絡(luò)的參數(shù)作為初始參數(shù)，用有標(biāo)簽數(shù)據(jù)微調(diào)網(wǎng)絡(luò)（驗(yàn)證集）。

　偽有監(jiān)督預(yù)訓(xùn)練：通過半監(jiān)督算法或聚類算法等方式，給無標(biāo)簽數(shù)據(jù)附上偽標(biāo)簽信息，先用這些偽標(biāo)簽信息來預(yù)訓(xùn)練網(wǎng)絡(luò)，然后再用有標(biāo)簽數(shù)據(jù)來微調(diào)網(wǎng)絡(luò)（驗(yàn)證集）。

　2-10-2.有標(biāo)簽數(shù)據(jù)提取特征的半監(jiān)督學(xué)習(xí) i)用有標(biāo)簽數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)（此時(shí)網(wǎng)絡(luò)一般過擬合）； ii)通過隱藏層提取特征，以這些特征來用某種分類算法對(duì)無標(biāo)簽數(shù)據(jù)進(jìn)行分類； iii)挑選認(rèn)為分類正確的無標(biāo)簽數(shù)據(jù)加入到訓(xùn)練集；重復(fù)上述過程。

　想法美好，實(shí)際應(yīng)用不太行，誤差會(huì)放大。

　2-9-3 網(wǎng)絡(luò)本身的半監(jiān)督學(xué)習(xí)（端到端的半監(jiān)督深度模型）

　ICML 2013 的文章 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks：

　該文章簡(jiǎn)單的說就是在偽標(biāo)簽學(xué)習(xí)中使用深度學(xué)習(xí)網(wǎng)絡(luò)作為分類器，就是把網(wǎng)絡(luò)對(duì)無標(biāo)簽數(shù)據(jù)的預(yù)測(cè)，作為無標(biāo)簽數(shù)據(jù)的偽標(biāo)簽（Pseudo label），用來對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

　但方法雖然簡(jiǎn)單，但是效果很好，比單純用有標(biāo)簽數(shù)據(jù)有不少的提升。其主要的貢獻(xiàn)在于損失函數(shù)的構(gòu)造：

　損失函數(shù)的第一項(xiàng)是有標(biāo)簽數(shù)據(jù)的損失，第二項(xiàng)是無標(biāo)簽數(shù)據(jù)的損失，在無標(biāo)簽數(shù)據(jù)的損失中，

　為無標(biāo)簽數(shù)據(jù)預(yù)測(cè)得到的偽標(biāo)簽，是直接取網(wǎng)絡(luò)對(duì)無標(biāo)簽數(shù)據(jù)的預(yù)測(cè)的最大值為標(biāo)簽。

　其中決定著無標(biāo)簽數(shù)據(jù)的代價(jià)在網(wǎng)絡(luò)更新的作用，選擇合適

　的

　很重要，太大性能退化，太小提升有限。

　在網(wǎng)絡(luò)初始時(shí)，網(wǎng)絡(luò)的預(yù)測(cè)時(shí)不太準(zhǔn)確的，因此生成的偽標(biāo)簽的準(zhǔn)確性也不高。

　在初始訓(xùn)練時(shí)，

　要設(shè)為 0，然后再慢慢增加，論文中給出其增長(zhǎng)函數(shù)。

　Semi-Supervised Learning with Ladder Networks：

　ladderNet 是有監(jiān)督算法和無監(jiān)督算法的有機(jī)結(jié)合。上面提及到的無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)的思想中所有監(jiān)督和無監(jiān)督是分開的，兩個(gè)階段的訓(xùn)練相互獨(dú)立，并不能稱之為真正的半監(jiān)督學(xué)習(xí)。

　無監(jiān)督學(xué)習(xí)是用重構(gòu)樣本進(jìn)行訓(xùn)練，其編碼（學(xué)習(xí)特征）的目的是盡可能地保留原始數(shù)據(jù)的信息；而有監(jiān)督學(xué)習(xí)是用于分類，希望只保留其本質(zhì)特征，去除不必要的特征。

　舉例來說：我們的分類任務(wù)判斷一張人臉圖片是單眼皮，還是雙眼皮；那么有監(jiān)督學(xué)習(xí)經(jīng)過訓(xùn)練完畢后，就會(huì)盡可能的把與這個(gè)分類任務(wù)無關(guān)的信息過濾掉，過濾的越好，那么分類的精度將會(huì)更高。

　比如一個(gè)人的嘴巴、鼻子信息這些都是與這個(gè)分類任務(wù)無關(guān)的，那么就要盡量的過濾掉。

　因此，基于這個(gè)原因以至于一直以來有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)不能很好的兼容在一起。

　ladderNet 成功的原因在于損失函數(shù)和 skip connection 。通過在每層的編碼器和解碼器之間添加跳躍連接（skip connection），減輕模型較高層表示細(xì)節(jié)的壓力，使得無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)能結(jié)合在一起，并在最高層添加分類器。

　損失函數(shù)的第一項(xiàng)是有標(biāo)簽樣本數(shù)據(jù)的交叉熵?fù)p失函數(shù)，第二項(xiàng)是無監(jiān)督各層噪聲解碼器重構(gòu)誤差歐式損失函數(shù)。

　其他的幾種半監(jiān)督網(wǎng)絡(luò)的具體見參考文獻(xiàn)[4]中. Temporal Ensembling for Semi-supervised Learning Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results Mean teacher 是對(duì)模型的參數(shù)進(jìn)行移動(dòng)平均（weight-averaged），使用這個(gè)移動(dòng)平均模型參數(shù)的就是 teacher model 。

　其思想有點(diǎn)類似于網(wǎng)絡(luò)模型融合中的隨機(jī)加權(quán)平均（SWA，Stochastic Weight Averaging）。

　參考文獻(xiàn) [1]. 周志華. 機(jī)器學(xué)習(xí)[M]. Qing hua da xue chu ban she, 2016. [2].【譯文】偽標(biāo)簽學(xué)習(xí)導(dǎo)論 - 一種半監(jiān)督學(xué)習(xí)方法 [3].半監(jiān)督深度學(xué)習(xí)小結(jié) [4].深度學(xué)習(xí)的自編碼 [5].深度學(xué)習(xí)（三十二）半監(jiān)督階梯網(wǎng)絡(luò)學(xué)習(xí)筆記

相關(guān)熱詞搜索：學(xué)習(xí) 監(jiān)督綜述

熱點(diǎn)文章閱讀

“四史知識(shí)競(jìng)賽”題庫(kù)（3套， 2020-10-04
疫情防控會(huì)議記錄 2020-08-03
四史知識(shí)競(jìng)賽判斷題 2020-09-24
學(xué)習(xí)四史小學(xué)生心得體會(huì)2020 2020-07-12
對(duì)于《黨委（黨組）意識(shí)形態(tài)工 2020-07-28
心得體會(huì),共青團(tuán)工作條例心得 2020-08-07
事業(yè)單位干部任用條例 2020-09-27
后備干部面試題題庫(kù)（精心整理 2020-08-09
《寄諸弟書》學(xué)習(xí)心得 2020-09-07
黨史讀后感800字 2020-08-05

版權(quán)所有 蒲公英文摘 m.91mayou.com

<li id="xajoj"><tfoot id="xajoj"><pre id="xajoj"></pre></tfoot></li>