圖片分類

加入對抗式攻擊,觀察準確率差異

結論

  • Training 及 Testing accuracy 成果好
  • Adversarial Training的效果不佳

研究動機

在現今的AI快速發展的過程中,我們經常會在不同應用場景中使用神經網絡來協助進行決策,但神經網絡是否穩固成了一個需要被檢視的問題,這裡以CNN為例,左邊這張圖我們能看到一隻老虎,將這張圖片餵入 model 後所得到的 output 也是老虎,但如果這張圖被被加入了中間的擾動,成了右邊這張圖,我們單從肉眼觀察時這張圖片仍然是一張老虎,但若再次餵入模型時,則會得到錯誤的 output 結果。這個擾動造成模型判斷錯誤的結果我們就稱之為對抗式攻擊,由此我們與也能得知這個模型是不夠穩健的。

研究架構

  • 將放置在各個不同的資料夾的影像進行讀取
  • 將讀取之影像依其所屬之資料夾給予編碼
  • 將圖片resize成相同大小(150×150)
  • 將所有已讀取之影像進行打亂(shuffle)的動作,避免有 overfitting 的情形發生,也能避免同一個組合的 batch 反覆出現,使的模型記住這些順序
  • 加入FGSM(Fast Gradient Sign Method)攻擊,預期觀察到準確率下降之結果
  • 加入Adversarial Training訓練,預期準確率回升

實驗成果

  • 使用深度學習模型(CNN)進行初步訓練
    • 使用普通訓練數據集進行訓練,並記錄 訓練準確率 (99.42%) 和 測試準確率 (83.1%),以評估模型在未受干擾數據上的效能
  • FGSM
    • 對模型生成對抗樣本,通過在輸入數據上添加小幅度干擾來生成對抗樣本,使模型錯誤分類,在對抗樣本上測試模型性能,發現測試準確率急劇下降到 1.98%,表明模型對對抗攻擊極為脆弱
  • Adversarial Training
    • 在訓練過程中,將對抗樣本與普通數據混合用於訓練
    • 訓練完成後,模型在對抗樣本上的準確率提升至 3.54%,在普通測試數據上的準確率為 4%。

未來展望

  • 本次研究
    • Training 及 Testing accuracy 成果好
      • 圖片幾乎出自影片中截圖,未來可測試非官方原圖的辨識結果
    • Training 及 Testing accuracy 成果好
      • 不同AI模型也會因模型複雜度與訓練資料種類不同,需要不同的對抗式訓練及對抗式偵測模組(Adversarial Detection Module)的訓練時間
  • 後續研究方向
    • 使用數據增強技術,像是翻轉圖像、切割圖像、噪音擾動(noise)等方法增加數據量,提高模型的擬合能力
    • 資料集變大後再增加訓練次數