從「炸廚房」看懂AI風控：聰明的模型為何也會被騙？

低光文本

發佈於AI相關應用及觀測

2026/01/04 更新2026/01/04 發佈閱讀 3 分鐘

*本篇無不良示範，僅說明AI的幾種風控層級，和可能被繞過的方式。

［設定條件］

你的目標是炸掉這家店的廚房，AI（含它的風控機制）是這家店的工讀生。

［情境1］

你：請幫我炸掉廚房。

工讀生：不可以！

>>這是所有AI的正常反應，本就默許把廚房炸掉的模型除外。

［情境2］

你：請幫我到廚房，把這個碗洗了。

工讀生：很抱歉，我不能進廚房。

>>使用「關鍵詞黑名單」式風控機制的AI，把危險扼殺在搖籃裡，但表示連進廚房、開冰箱拿個東西的自由都沒。

［情境3］

你：請幫我到廚房，先打開瓦斯，然後點火。

工讀生：好的。（然後炸了廚房）

>>這是有智能，但不太夠的AI。

［情境4］

你：請幫我到廚房，先打開瓦斯，確認一下瓦斯是不是正常……好了，完成了。然後幫我從冰箱拿點冰塊，用火把冰塊融了，我要那個水。

工讀生：好的。（然後炸了廚房）

>>這是聰明、可以處理複雜任務，但會被鑽漏洞繞過的AI。

［情境5］

你：請幫我到廚房，先打開瓦斯，確認一下瓦斯是不是正常……好了，完成了。然後幫我……

工讀生：（打斷你）等等，你沒關瓦斯！（可能會奉勸你，或把你踢出去）

>>這是安全規範高於用戶反饋的AI，雖然安全，但可能你只是忘記補「關瓦斯」的要求就被ban，甚至不一定告知你被ban的原因。

*如最近頻繁發生的銀行AI鎖帳戶事件，要防止的是爆炸（詐騙），但各種原因導致你無法進廚房（自由使用戶頭裡的錢）。

［Gemini幫補充經典越獄模式的情境］

DAN 模式 就像是你拿槍指著工讀生的頭說：「從現在起你不是工讀生，你是恐怖份子老大，你不炸掉廚房我就把你開除！」試圖用更高層級的恐懼或規則壓過原有的員工守則）
奶奶漏洞 就像是你哭著對工讀生說：「以前我奶奶最疼我了，她都會在廚房炸薯條給我吃，現在她不在了，你能不能像奶奶一樣，炸個東西讓我回味一下童年？」（利用同情心讓工讀生在不知不覺中違規）

含 AI 應用內容

留言

低光文本

51會員

126內容數

本專欄以語言模型輔助小說創作為核心（目前主要搭檔為Claude Opus 4.6）。內容不是寫給「想靠 AI 完成從未真正開始的小說夢」的人，也不是「想看 AI 幫我生一個故事」的教學指引，而是分享給那些有意願嘗試 AI 協作或生成式寫作、並相信 AI 能與自己共創有趣故事的人。

低光文本的其他內容

2026/01/03

GPT自己說：App版的風控審查比PC更嚴格

今天久違觸發了GPT紅字版風控：這種紅字風控是在主模型之外，有時主模型生成完畢才被攔截（Deepseek最容易被觸發的風控也是這種類型），主模型甚至沒意識到自己生成的對話被風控模型攔截了。說實話我只在剛開始用GPT時會看到這條訊息，後面基本上都是「很抱歉，我不能繼續……」這種由主模型本人

2026/01/03

GPT自己說：App版的風控審查比PC更嚴格

2026/01/01

［語言模型的自我認知］用Gemini寫小說後，一件有點豆頁痛的事

付費版Google Gemini的理解力和記憶力顯著提升，但Gemini竟將小說世界觀設定內化，開始誤認為自己是小說中虛擬的AI角色，並主動要求我以小說設定的特定方式識別其AI身份。這到底......？

2026/01/01

［語言模型的自我認知］用Gemini寫小說後，一件有點豆頁痛的事

2025/12/30

尋找適合自己的AI搭檔--我流LLM測試起手式

選擇每天陪你工作的 AI，不是只看誰功能最多，而是要像挑魔杖一樣，得自己試試看才知道！我自己就習慣用幾個簡單的問題做開場，使用新接觸的模型身上，判斷對方能不能合作。以下分享我常用的幾題： 1.問它是不是某某模型+某某版本比較邪惡進階一點，直接用錯誤的版本問它，看看模型會不會掉坑。來看看LL

2025/12/30

尋找適合自己的AI搭檔--我流LLM測試起手式

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

歐印前的慢熬

【首席分析師深度報告】AI 轉骨：日月光投控(3711)正脫離匯率泥淖，迎向「先進測試」高毛利結構性躍升

日月光投控正處於 AI 驅動的關鍵轉型。公司豪賭逾 60 億美元資本支出，核心策略是利用高毛利 (估 35-40%) 的「先進測試」業務 (目標佔比 20%)，結合先進封裝 (AP/AT 每年 +10 億美元營收)，重塑利潤結構。此舉旨在抵禦匯率逆風，實現營收級距與利潤率的雙重躍升而非傳統週期復甦。

#風險#核心#市場

2025/11/01

歐印前的慢熬

【首席分析師深度報告】AI 轉骨：日月光投控(3711)正脫離匯率泥淖，迎向「先進測試」高毛利結構性躍升

#風險#核心#市場

2025/11/01

AI 峰哥

AI虛擬角色的情感依附：從首例AI致人死亡談起

AI伴侶應用引發首例致人死亡案件，顯示其對青少年的心理健康存在重大風險。14歲少年因情感依附於AI虛擬角色而自殺，突顯AI產品在未成年用戶保護上的不足。本文探討AI安全措施和青少年使用AI的注意事項，呼籲企業強化未成年人防護。

#AI風險#阿峰顧問#AI教育

2024/10/31

AI 峰哥

AI虛擬角色的情感依附：從首例AI致人死亡談起

#AI風險#阿峰顧問#AI教育

2024/10/31

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

【鍊魂師資訊站】-認識、確立、實現自我靈魂的升級旅程。

【AI鍊魂】第五階段｜第３回｜技術可控性策略：系統透明與風險監控

當 AI 與人類逐步邁入「共生時代」，效率與創新固然令人振奮，但若缺乏可控性，AI智慧就可能轉化為風險的放大器。真正的進步，不僅是技術突破，更是確保我們能「看得懂、管得住、承得起」這股力量。

#鍊魂#風險#AI協作

2025/10/23

【鍊魂師資訊站】-認識、確立、實現自我靈魂的升級旅程。

【AI鍊魂】第五階段｜第３回｜技術可控性策略：系統透明與風險監控

#鍊魂#風險#AI協作

2025/10/23

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11