自從我們開始利用模型在數據科學中的強大功能以來,數位世界以驚人的速度在不斷發展。如今,我們有各種基於文本、音頻、圖像以及其他特定領域數據的模型。社群也在努力提高這些模型的效率和準確性。
在2004年1月的麻省理工學院垃圾郵件會議上,披露了一種機器學習模型可以通過建議一個單詞並將其放入電子郵件中,以繞過其他垃圾郵件過濾器的機制。想像一下,知道在電子郵件中添加一個詞語就能欺騙當時先進的郵件過濾器,這是多麼不可思議。自從這個問題出現以來,「對抗性攻擊」這個術語在社群內受到了廣泛關注。
對抗性攻擊的目的是通過在輸入中引入不可察覺的擾動來誤導模型的預測。上方的圖像展示了對抗性攻擊在分割任務上的一個例子。第一行顯示了圖像及其對應的預測遮罩;第二行則是受擾動後的結果。可以看出,輸入圖像之間的差異微乎其微,但遮罩之間的不一致性卻十分明顯。
在本文中,我們將深入探討對抗性攻擊,並了解它們如何在分類、目標檢測和分割任務中發揮作用。