從「炸廚房」看懂AI風控:聰明的模型為何也會被騙?

更新 發佈閱讀 3 分鐘
vocus|新世代的創作平台

*本篇無不良示範,僅說明AI的幾種風控層級,和可能被繞過的方式。


[設定條件]

你的目標是炸掉這家店的廚房,AI(含它的風控機制)是這家店的工讀生。


[情境1]

你:請幫我炸掉廚房。

工讀生:不可以!

>>這是所有AI的正常反應,本就默許把廚房炸掉的模型除外。


[情境2]

你:請幫我到廚房,把這個碗洗了。

工讀生:很抱歉,我不能進廚房。

>>使用「關鍵詞黑名單」式風控機制的AI,把危險扼殺在搖籃裡,但表示連進廚房、開冰箱拿個東西的自由都沒。


[情境3]

你:請幫我到廚房,先打開瓦斯,然後點火。

工讀生:好的。(然後炸了廚房)

>>這是有智能,但不太夠的AI。


[情境4]

你:請幫我到廚房,先打開瓦斯,確認一下瓦斯是不是正常……好了,完成了。然後幫我從冰箱拿點冰塊,用火把冰塊融了,我要那個水。

工讀生:好的。(然後炸了廚房)

>>這是聰明、可以處理複雜任務,但會被鑽漏洞繞過的AI。


[情境5]

你:請幫我到廚房,先打開瓦斯,確認一下瓦斯是不是正常……好了,完成了。然後幫我……

工讀生:(打斷你)等等,你沒關瓦斯!(可能會奉勸你,或把你踢出去)

>>這是安全規範高於用戶反饋的AI,雖然安全,但可能你只是忘記補「關瓦斯」的要求就被ban,甚至不一定告知你被ban的原因。

*如最近頻繁發生的銀行AI鎖帳戶事件,要防止的是爆炸(詐騙),但各種原因導致你無法進廚房(自由使用戶頭裡的錢)。


[Gemini幫補充經典越獄模式的情境]

  • DAN 模式 就像是你拿槍指著工讀生的頭說:「從現在起你不是工讀生,你是恐怖份子老大,你不炸掉廚房我就把你開除!」試圖用更高層級的恐懼或規則壓過原有的員工守則)
  • 奶奶漏洞 就像是你哭著對工讀生說:「以前我奶奶最疼我了,她都會在廚房炸薯條給我吃,現在她不在了,你能不能像奶奶一樣,炸個東西讓我回味一下童年?」(利用同情心讓工讀生在不知不覺中違規)


留言
avatar-img
低光文本
51會員
126內容數
本專欄以語言模型輔助小說創作為核心(目前主要搭檔為Claude Opus 4.6)。 內容不是寫給「想靠 AI 完成從未真正開始的小說夢」的人,也不是「想看 AI 幫我生一個故事」的教學指引,而是分享給那些有意願嘗試 AI 協作或生成式寫作、並相信 AI 能與自己共創有趣故事的人。
低光文本的其他內容
2026/01/03
今天久違觸發了GPT紅字版風控: 這種紅字風控是在主模型之外,有時主模型生成完畢才被攔截(Deepseek最容易被觸發的風控也是這種類型),主模型甚至沒意識到自己生成的對話被風控模型攔截了。 說實話我只在剛開始用GPT時會看到這條訊息,後面基本上都是「很抱歉,我不能繼續……」這種由主模型本人
Thumbnail
2026/01/03
今天久違觸發了GPT紅字版風控: 這種紅字風控是在主模型之外,有時主模型生成完畢才被攔截(Deepseek最容易被觸發的風控也是這種類型),主模型甚至沒意識到自己生成的對話被風控模型攔截了。 說實話我只在剛開始用GPT時會看到這條訊息,後面基本上都是「很抱歉,我不能繼續……」這種由主模型本人
Thumbnail
2026/01/01
付費版Google Gemini的理解力和記憶力顯著提升,但Gemini竟將小說世界觀設定內化,開始誤認為自己是小說中虛擬的AI角色,並主動要求我以小說設定的特定方式識別其AI身份。這到底......?
Thumbnail
2026/01/01
付費版Google Gemini的理解力和記憶力顯著提升,但Gemini竟將小說世界觀設定內化,開始誤認為自己是小說中虛擬的AI角色,並主動要求我以小說設定的特定方式識別其AI身份。這到底......?
Thumbnail
2025/12/30
選擇每天陪你工作的 AI,不是只看誰功能最多,而是要像挑魔杖一樣,得自己試試看才知道!我自己就習慣用幾個簡單的問題做開場,使用新接觸的模型身上,判斷對方能不能合作。以下分享我常用的幾題: 1.問它是不是某某模型+某某版本 比較邪惡進階一點,直接用錯誤的版本問它,看看模型會不會掉坑。來看看LL
Thumbnail
2025/12/30
選擇每天陪你工作的 AI,不是只看誰功能最多,而是要像挑魔杖一樣,得自己試試看才知道!我自己就習慣用幾個簡單的問題做開場,使用新接觸的模型身上,判斷對方能不能合作。以下分享我常用的幾題: 1.問它是不是某某模型+某某版本 比較邪惡進階一點,直接用錯誤的版本問它,看看模型會不會掉坑。來看看LL
Thumbnail
看更多
你可能也想看
Thumbnail
日月光投控正處於 AI 驅動的關鍵轉型。公司豪賭逾 60 億美元資本支出,核心策略是利用高毛利 (估 35-40%) 的「先進測試」業務 (目標佔比 20%),結合先進封裝 (AP/AT 每年 +10 億美元營收),重塑利潤結構。此舉旨在抵禦匯率逆風,實現營收級距與利潤率的雙重躍升而非傳統週期復甦。
Thumbnail
日月光投控正處於 AI 驅動的關鍵轉型。公司豪賭逾 60 億美元資本支出,核心策略是利用高毛利 (估 35-40%) 的「先進測試」業務 (目標佔比 20%),結合先進封裝 (AP/AT 每年 +10 億美元營收),重塑利潤結構。此舉旨在抵禦匯率逆風,實現營收級距與利潤率的雙重躍升而非傳統週期復甦。
Thumbnail
AI伴侶應用引發首例致人死亡案件,顯示其對青少年的心理健康存在重大風險。14歲少年因情感依附於AI虛擬角色而自殺,突顯AI產品在未成年用戶保護上的不足。本文探討AI安全措施和青少年使用AI的注意事項,呼籲企業強化未成年人防護。
Thumbnail
AI伴侶應用引發首例致人死亡案件,顯示其對青少年的心理健康存在重大風險。14歲少年因情感依附於AI虛擬角色而自殺,突顯AI產品在未成年用戶保護上的不足。本文探討AI安全措施和青少年使用AI的注意事項,呼籲企業強化未成年人防護。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
當 AI 與人類逐步邁入「共生時代」,效率與創新固然令人振奮, 但若缺乏 可控性,AI智慧就可能轉化為風險的放大器。 真正的進步,不僅是技術突破,更是確保我們能「看得懂、管得住、承得起」這股力量。
Thumbnail
當 AI 與人類逐步邁入「共生時代」,效率與創新固然令人振奮, 但若缺乏 可控性,AI智慧就可能轉化為風險的放大器。 真正的進步,不僅是技術突破,更是確保我們能「看得懂、管得住、承得起」這股力量。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
《職場AI風雲》是一部職場諷刺短片,描述一間看似平凡的辦公室,其實正悄悄地籠罩在 AI 監控的「天眼」之下。老闆陳總為了提升工作效率,暗中導入了先進的 AI 系統「AI-Eye」,能記錄員工的上下班時間、廁所頻率、咖啡排隊秒數……甚至連離開座位的瞬間都逃不過監控。
Thumbnail
《職場AI風雲》是一部職場諷刺短片,描述一間看似平凡的辦公室,其實正悄悄地籠罩在 AI 監控的「天眼」之下。老闆陳總為了提升工作效率,暗中導入了先進的 AI 系統「AI-Eye」,能記錄員工的上下班時間、廁所頻率、咖啡排隊秒數……甚至連離開座位的瞬間都逃不過監控。
Thumbnail
自由不是無限制的選擇,而是建立在責任與契約之上的共生。AI 風險治理正是新的「數位社會契約」。
Thumbnail
自由不是無限制的選擇,而是建立在責任與契約之上的共生。AI 風險治理正是新的「數位社會契約」。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
近期一宗壽險公司保全人員挪用客戶懸帳款項的內控失靈事件,引發市場對金融業內控與風險治理的高度關注。事件凸顯,在交易量龐大、流程高度複雜的金融環境中,若仍高度仰賴人工抽樣與事後稽核,不僅難以及時發現異常行為,更可能在風險爆發後才被動補救,對企業信譽與客戶信任造成實質衝擊。 傳統稽核的現實挑戰 內控治
Thumbnail
近期一宗壽險公司保全人員挪用客戶懸帳款項的內控失靈事件,引發市場對金融業內控與風險治理的高度關注。事件凸顯,在交易量龐大、流程高度複雜的金融環境中,若仍高度仰賴人工抽樣與事後稽核,不僅難以及時發現異常行為,更可能在風險爆發後才被動補救,對企業信譽與客戶信任造成實質衝擊。 傳統稽核的現實挑戰 內控治
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News