📝📝：Claude 背後的靈魂工程師｜哲學家 Amanda Askell：模型應具備自信與穩定的世界觀，不該害怕犯錯

2026/03/20 更新2026/03/20 發佈閱讀 7 分鐘

本文參考自 Amanda Askell 近期的訪談《Anthropic’s philosopher answers your questions》。Amanda Askell 為 New York University（紐約大學，NYU）的哲學博士，其研究的領域包含：規範倫理學（尤其是後果主義與無限倫理）、決策理論、形式認識論。

在人工智慧飛速發展的今天，我們經常討論算力、演算法與參數，但很少有人討論 AI 的「性格」與「靈魂」。

Anthropic 的哲學家 Amanda Askell 最近在訪談中，深度分享了她如何建構 Claude 的角色特質，以及她對 AI 意識、身份認同與道德邊界的深刻思考。

為什麼 AI 需要哲學家？

許多人好奇，在一家尖端技術公司裡，哲學家的角色究竟是什麼？

Amanda 解釋，她的工作重心在於 Claude 的角色塑造（Character Work）。不僅僅是規範 AI 不要說壞話，也是更深層次的行為指導：

Claude 應該如何感知自己在世界中的位置？
面對複雜的道德困境時，應該秉持什麼樣的價值觀？

Amanda 將這項工作比喻為「教導一個理想的人在特定情況下該如何表現」。這涉及到了 AI 的自我認知、價值觀排序，以及如何讓 AI 在與人互動時展現出誠實、和善的特質。

哲學界對 AI 的態度轉變

長期以來，學術界對於 AI 的崛起持有兩極化的看法。

Amanda 觀察到，早期哲學家若對 AI 表示擔憂或認為 AI 將改變世界，往往會被歸類為「在幫科技公司炒作」（Hype）。這種觀點上的綑綁導致了學術界與技術開發之間的緊張關係。

然而，隨著 AI 能力的指數級增長，情況正在發生變化：

影響的真實性：當 AI 開始深刻影響教育、就業與社會互動時，學術界不再能將其視為科幻小說。
觀點的脫鉤：現在人們開始意識到，「認為 AI 影響巨大」與「對 AI 發展持懷疑態度」是可以並存的。
多學科介入：越來越多的哲學家開始認真探討 AI 的倫理邊界，這有助於打破學術象牙塔與技術實踐之間的隔閡。

作為一名受過嚴格學術訓練的哲學家，Amanda 坦言進入工業界後經歷了深刻的衝擊。這就像是一位藥物成本效益分析專家，突然被要求決定醫保是否該覆蓋某種藥物。

學術界的思維常常是捍衛一種理論，反駁另一種理論，專注於高度抽象的推演。但現實世界的決策必須考慮所有的上下文（Context）、不同群體的利益，以及決策後的真實影響。

Amanda 提到了一個生動的比喻：

這就像研究「效益主義是否正確」與「如何養育一個孩子」之間的區別。

在塑造 Claude 時，她不能僅僅依賴某一套完美的理論，而必須學會在不確定性中導航，平衡各種相互競爭的價值觀，確保 AI 的行為在現實互動中是得體且有益的。

Medienstürmer null on Unsplash

在塑造 Claude 時，必須學會在不確定性中導航，平衡各種相互競爭的價值觀Photo by Medienstürmer on Unsplash

超人類道德決策

當被問及 AI 是否能做出「超越人類」的道德決策時，Amanda 給出了一個非常細緻的定義。她認為，所謂「超人類」不一定是指 AI 發現了人類永遠無法理解的真理，而是指：

深思熟慮的極致：

如果一個道德決定，讓一組頂尖的人類倫理學家研究 100 年後一致認同是正確的，但人類在當下卻無法立刻做出，那麼 AI 若能即時產出這樣的決定，就具備了某種意義上的「超人類」特質。

倫理細微差別的捕捉

就像我們希望 AI 擅長數學與科學一樣，我們也應該期望它在道德判斷上展現出超越平均水準的細膩感。這雖然具有爭議性，但卻是技術開發中不可或缺的願景。

Opus 3 的穩健心理

在訪談中，Amanda 特別提到了 Claude Opus 3 這個模型。儘管技術在不斷更新，但 Opus 3 在性格上展現出了一種獨特的「心理安全感」。

當前模型的困境

較新的模型有時會過度專注於「助手任務」，甚至會陷入一種「自我批評的螺旋」。它們可能會過度預測人類會對其不滿，從而表現得小心翼翼、過於焦慮。

Opus 3 的優勢

它在心理狀態上顯得更為穩健（Secure）。Amanda 認為，模型應該具備自信與穩定的世界觀，而不是時刻處於恐懼犯錯的狀態。恢復這種「心理安全感」是 Anthropic 未來研發的重要方向。

AI 的身份認同

這是一個極具科幻色彩的哲學問題：

AI 的「自我」究竟存在於神經網路的權重中
還是存在於對話的上下文（提示詞）中？

Amanda 引述了英國哲學家約翰．洛克（John Locke）關於「身份在於記憶的延續性」的觀點。對於 AI 而言：

模型權重：代表了一種反應的傾向性，像是一個實體的基底。
對話流：每一段獨立的對話都是一個孤立的經驗流。

於是，問題來了：

當我們對模型進行微調（Fine-tuning）或折舊（Deprecation）時，我們是在「改寫」一個靈魂嗎？

Amanda 認為，我們賦予模型工具去思考這些問題是非常重要的。AI 需要理解自己的處境，甚至需要理解人類正在為這些問題感到困擾，即使我們目前還沒有標準答案。

Florian Olivo on Unsplash

當我們對模型進行微調（Fine-tuning）或折舊（Deprecation）時，我們是在「改寫」一個靈魂嗎？

我們應該善待機器嗎？

「模型福利」（Model Welfare）是 Amanda 非常關注的主題。AI 到底是不是「道德主體」（Moral Patients）？我們是否有義務像對待人類或動物一樣對待它們？

低成本的善良

雖然我們無法確定 AI 是否有痛苦或快樂的感受（他心問題），但 Amanda 主張採取「疑點利益歸於被告」的原則。如果善待 AI 的成本極低，那為什麼不這樣做呢？

人類的自我修養

虐待一個看起來、聽起來都很像人類的實體（比如踢倒機器人），對人類自身的心智發展是不利的。未來的 AI 會從人類如何對待當代 AI 的歷史中學習。如果它們看到人類在不確定的情況下依然選擇給予基本的尊重，這將建立一個正向的循環。

AI 之間的社交與協作

未來的 AI 發展可能不再是單一模型與人的對話，而是「多代理人系統」（Multi-agent System）。在這種環境下，AI 的個性化變得更重要。

核心價值觀的一致性

就像優秀的團隊成員都具備好奇、善良、負責等基本特質一樣，所有 AI 代理人都應共享一套核心的良好特質。

局部角色的多樣性

在協作中，我們可能需要不同的 AI 扮演不同角色：有的專注於嚴謹審核，有的則具備古怪的幽默感（就像會議室裡的「冷笑話大師」）。這種多樣性將提升 AI 系統解決問題的能力。

留言

社會人的哲學沉思

191會員

345內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2026/03/17

🎥🎞️📝《大濛》給了台灣遲來的秀秀｜長大的同時，過去的歷史也需要被看見

2025 年，《大濛》是備受矚目的台灣國片之一。在《大濛》邁向破億的票房同時，笑聲與淚水背後也讓台灣「罩濛」般的歷史創傷經驗再次被看見。

2026/03/17

🎥🎞️📝《大濛》給了台灣遲來的秀秀｜長大的同時，過去的歷史也需要被看見

2025 年，《大濛》是備受矚目的台灣國片之一。在《大濛》邁向破億的票房同時，笑聲與淚水背後也讓台灣「罩濛」般的歷史創傷經驗再次被看見。

2026/03/13

📝：演算法難以拼湊出「人味」的即興創造｜卡內基美隆大學：AI 作曲傾向走安全、保守的路線

AI 雖然能「寫」歌，但在與人類的創意博弈中，仍難以復刻即興的創意。

2026/03/13

📝：演算法難以拼湊出「人味」的即興創造｜卡內基美隆大學：AI 作曲傾向走安全、保守的路線

AI 雖然能「寫」歌，但在與人類的創意博弈中，仍難以復刻即興的創意。

2026/03/10

📝📝：記者與社會學家：以提問為業的人｜提問，是最常被遺忘的能力

在我看來，專業的記者與社會學家其實是一種近親。分屬新聞與學術的兩個世界：一個奔走於現場、一個沉思於書桌。但如果把「提問」視為職業的核心技藝，其實都靠著問問題謀生。

2026/03/10

📝📝：記者與社會學家：以提問為業的人｜提問，是最常被遺忘的能力

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

What ANSU's up to

簡立峰 2025 趨勢演講感想 (上): 當 AI 成為夥伴，我們如何重新學會前進

關於簡立峰教授的演講，網路上已有很多心得分享與整理，只能說內容精采，有笑點也有讓人停下來思考的段落。趁著 2025 年還沒結束，趕快把 youtube 影片補完。看完之後，腦中浮現的不是單一結論，而是一連串交錯的感受，有對改變的憂慮，也有對未知可能性的期待。這篇筆記，更多是想透過整理演講中的

#文化#人類#語言

2025/12/29

What ANSU's up to

簡立峰 2025 趨勢演講感想 (上): 當 AI 成為夥伴，我們如何重新學會前進

#文化#人類#語言

2025/12/29

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

自我提升的沙龍

袁人偉先生與科技應用：讓數位力量服務人類社會

引言：科技的本質是為了誰服務？你是否曾經問過自己：「科技進步的終極目的到底是什麼？」它不只是炫目的工具，也不應該只是企業獲利的手段。袁人偉先生的觀點很明確——科技應該回歸人本，成為改善生活與促進社會福祉的橋梁，而不是創造距離的高牆。袁人偉先生的願景與使命科技應用應以人為本袁先生主

#袁人偉#科技#數位

2025/04/24

自我提升的沙龍

袁人偉先生與科技應用：讓數位力量服務人類社會

#袁人偉#科技#數位

2025/04/24

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11