對比學習實戰：用SimSiam模型挑戰FashionMNIST數據集

2024/09/13 更新2024/09/13 發佈閱讀 3 分鐘

深度學習領域中，對比學習（Contrastive Learning）近年來受到越來越多關注。它能夠在無標籤數據上學習到有效的特徵表示，為下游任務提供強大支持。本文將以FashionMNIST數據集為例，介紹如何實現一個基於SimSiam的對比學習模型，並與傳統監督學習方法進行對比。

首先來看FashionMNIST數據集。這是一個包含10類服飾圖像的數據集，每類6000張訓練圖像和1000張測試圖像，共70000張28x28的灰度圖。相比MNIST手寫數字，FashionMNIST更接近實際應用場景，難度也更高。

在實驗中，我們設置了兩種場景:

1. 使用全部60000張訓練圖像進行監督學習

2. 只使用1000張有標籤圖像進行監督學習

對於第一種場景，我們構建了一個簡單的CNN分類器，包含3層卷積和2層全連接層。經過10輪訓練，在測試集上達到了87%的準確率。這個結果還不錯，但仍有提升空間。

更具挑戰性的是第二種場景。當我們將訓練數據縮減到僅1000張時，即使增加到100輪訓練，準確率也只有61%左右，相比全量數據下降了26個百分點。這凸顯了在標籤稀缺情況下，傳統監督學習的局限性。

此時，對比學習就能發揮優勢。我們選擇了SimSiam這一簡潔有效的對比學習方法。相比需要大batch size的SimCLR，SimSiam採用了孿生網絡結構，無需負樣本，也不需要特別大的batch。

SimSiam的核心思想是:對同一圖像施加兩次不同的數據增強，得到兩個視圖。這兩個視圖分別通過編碼器和預測器，最終計算它們表示的餘弦相似度作為損失。通過最小化這個損失，模型學會將同一圖像的不同視圖映射到相近的特徵空間。

實現SimSiam時，我們沿用了之前CNN分類器的backbone，只是將最後的全連接分類層替換為一個預測MLP。訓練時使用了隨機數據增強，包括隨機裁剪、水平翻轉等。優化器選用SGD，學習率0.0001，momentum 0.9。

經過100輪訓練後，我們凍結backbone，只在1000張有標籤數據上微調最後一層分類器。測試結果顯示，準確率達到了76%，比直接監督學習提高了15個百分點。這充分證明了對比學習在特徵提取方面的優勢。

深入分析發現，SimSiam學到的特徵具有更好的判別性和泛化性。通過t-SNE可視化發現，不同類別的樣本在特徵空間中形成了清晰的聚類。這說明即使沒有標籤信息，模型也學會了將相似圖像映射到相近的特徵表示。

當然，SimSiam也存在一些局限性。例如，它對超參數比較敏感，特別是學習率和MLP結構的選擇。此外，由於缺少負樣本，模型可能會出現表示坍塌的問題。在實踐中，可以考慮引入動量編碼器（如MoCo v3）來提升穩定性。

總的來說，對比學習為解決標籤稀缺問題提供了一種有效途徑。通過無監督預訓練+少量標籤微調的範式，可以顯著提升模型性能。未來，隨著更多創新算法的出現，對比學習必將在計算機視覺、自然語言處理等多個領域發揮重要作用。

對於讀者而言，建議可以從以下幾個方面深入探索對比學習:

1. 嘗試其他對比學習算法，如SimCLR、MoCo等，比較它們的優劣

2. 在更複雜的數據集上驗證對比學習的效果，如ImageNet

3. 將對比學習與其他自監督方法(如掩碼自編碼器)結合

4. 探索對比學習在下游任務如目標檢測、語義分割等方面的應用

對比學習仍是一個充滿活力的研究方向，相信未來會有更多突破性進展。讀者們不妨多加關注，並在實際項目中嘗試應用這一強大工具。

留言

小罗LA的沙龍

1會員

18內容數

小罗LA的沙龍的其他內容

2024/09/19

你的工作臺還能再進化！程式設計師必備的10大實用小物，讓你的程式碼更上一層樓

身為程式設計師，我們總是希望能打造一個舒適高效的工作環境。但市面上那些動輒上千元的「必備神器」真的有必要嗎？其實只要幾百塊，就能大幅提升你的工作效率和舒適度。今天就來分享10個平價又實用的工作臺升級小物，讓你的程式碼質量蹭蹭往上長！ 1. 120W USB-C 傳輸線：告別充電煩惱隨著

2024/09/19

你的工作臺還能再進化！程式設計師必備的10大實用小物，讓你的程式碼更上一層樓

2024/09/17

嵌入式AI的第一步：探索性數據分析如何助力電池管理優化

在嵌入式設備中,電池狀態的估算一直是個棘手的問題。不同於傳統的固定模型,利用機器學習來預測電池剩餘電量(SOC)成為了一個極具潛力的方向。然而,在急於套用模型之前,我們往往忽視了一個關鍵步驟——探索性數據分析(EDA)。 EDA的重要性不言而喻。它不僅幫助我們理解數據的本質,還為後續的模型選擇

2024/09/17

嵌入式AI的第一步：探索性數據分析如何助力電池管理優化

2024/09/17

機器學習裡的歷史偏見：從亞馬遜的招聘到預測性警務，如何避免AI放大社會不公？

人工智能(AI)和機器學習(ML)正在改變我們生活的方方面面,從購物推薦到醫療診斷,再到犯罪預測。我們常常認為這些技術工具是客觀公正的,能夠幫助我們擺脫人類的偏見和主觀判斷。然而,事實並非如此簡單。讓我們從一個著名的案例說起。2018年,亞馬遜公司被爆出其招聘AI系統存在性別歧視。這個系統被

2024/09/17

機器學習裡的歷史偏見：從亞馬遜的招聘到預測性警務，如何避免AI放大社會不公？

看更多

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Deep Residual Learning for Image Recognition

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，文中介紹了殘差網路，並推薦了兩篇論文；因為在看了書後，對殘差網路的概念還是不很清楚，於是決定用ChatGPT翻譯這兩篇論文來增強理解，以下正文是第一篇論文：Deep Residual Learning for Image Re

#深度學習#人工智慧#殘差網路

2024/07/07

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Deep Residual Learning for Image Recognition

#深度學習#人工智慧#殘差網路

2024/07/07

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11