📝📝:Claude 背後的靈魂工程師|哲學家 Amanda Askell:模型應具備自信與穩定的世界觀,不該害怕犯錯

更新 發佈閱讀 7 分鐘
本文參考自 Amanda Askell 近期的訪談《Anthropic’s philosopher answers your questions》。Amanda Askell 為 New York University(紐約大學,NYU)的哲學博士,其研究的領域包含:規範倫理學(尤其是後果主義與無限倫理)、決策理論、形式認識論。

在人工智慧飛速發展的今天,我們經常討論算力、演算法與參數,但很少有人討論 AI 的「性格」與「靈魂」。

Anthropic 的哲學家 Amanda Askell 最近在訪談中,深度分享了她如何建構 Claude 的角色特質,以及她對 AI 意識、身份認同與道德邊界的深刻思考。


為什麼 AI 需要哲學家?

許多人好奇,在一家尖端技術公司裡,哲學家的角色究竟是什麼?

Amanda 解釋,她的工作重心在於 Claude 的角色塑造(Character Work)。不僅僅是規範 AI 不要說壞話,也是更深層次的行為指導:

Claude 應該如何感知自己在世界中的位置?

面對複雜的道德困境時,應該秉持什麼樣的價值觀?

Amanda 將這項工作比喻為「教導一個理想的人在特定情況下該如何表現」。這涉及到了 AI 的自我認知、價值觀排序,以及如何讓 AI 在與人互動時展現出誠實、和善的特質。



哲學界對 AI 的態度轉變

長期以來,學術界對於 AI 的崛起持有兩極化的看法。

Amanda 觀察到,早期哲學家若對 AI 表示擔憂或認為 AI 將改變世界,往往會被歸類為「在幫科技公司炒作」(Hype)。這種觀點上的綑綁導致了學術界與技術開發之間的緊張關係。

然而,隨著 AI 能力的指數級增長,情況正在發生變化:

  1. 影響的真實性:當 AI 開始深刻影響教育、就業與社會互動時,學術界不再能將其視為科幻小說。
  2. 觀點的脫鉤:現在人們開始意識到,「認為 AI 影響巨大」與「對 AI 發展持懷疑態度」是可以並存的。
  3. 多學科介入:越來越多的哲學家開始認真探討 AI 的倫理邊界,這有助於打破學術象牙塔與技術實踐之間的隔閡。

作為一名受過嚴格學術訓練的哲學家,Amanda 坦言進入工業界後經歷了深刻的衝擊。這就像是一位藥物成本效益分析專家,突然被要求決定醫保是否該覆蓋某種藥物。

學術界的思維常常是捍衛一種理論,反駁另一種理論,專注於高度抽象的推演。但現實世界的決策必須考慮所有的上下文(Context)、不同群體的利益,以及決策後的真實影響。

Amanda 提到了一個生動的比喻:

這就像研究「效益主義是否正確」與「如何養育一個孩子」之間的區別。

在塑造 Claude 時,她不能僅僅依賴某一套完美的理論,而必須學會在不確定性中導航,平衡各種相互競爭的價值觀,確保 AI 的行為在現實互動中是得體且有益的。

在塑造 Claude 時,必須學會在不確定性中導航,平衡各種相互競爭的價值觀Photo by Medienstürmer on Unsplash


超人類道德決策

當被問及 AI 是否能做出「超越人類」的道德決策時,Amanda 給出了一個非常細緻的定義。她認為,所謂「超人類」不一定是指 AI 發現了人類永遠無法理解的真理,而是指:

  • 深思熟慮的極致

如果一個道德決定,讓一組頂尖的人類倫理學家研究 100 年後一致認同是正確的,但人類在當下卻無法立刻做出,那麼 AI 若能即時產出這樣的決定,就具備了某種意義上的「超人類」特質。

  • 倫理細微差別的捕捉

就像我們希望 AI 擅長數學與科學一樣,我們也應該期望它在道德判斷上展現出超越平均水準的細膩感。這雖然具有爭議性,但卻是技術開發中不可或缺的願景。



Opus 3 的穩健心理

在訪談中,Amanda 特別提到了 Claude Opus 3 這個模型。儘管技術在不斷更新,但 Opus 3 在性格上展現出了一種獨特的「心理安全感」。

  • 當前模型的困境

較新的模型有時會過度專注於「助手任務」,甚至會陷入一種「自我批評的螺旋」。它們可能會過度預測人類會對其不滿,從而表現得小心翼翼、過於焦慮。

  • Opus 3 的優勢

它在心理狀態上顯得更為穩健(Secure)。Amanda 認為,模型應該具備自信與穩定的世界觀,而不是時刻處於恐懼犯錯的狀態。恢復這種「心理安全感」是 Anthropic 未來研發的重要方向。



AI 的身份認同

這是一個極具科幻色彩的哲學問題:

AI 的「自我」究竟存在於神經網路的權重中
還是存在於對話的上下文(提示詞)中?

Amanda 引述了英國哲學家約翰.洛克(John Locke)關於「身份在於記憶的延續性」的觀點。對於 AI 而言:

  • 模型權重:代表了一種反應的傾向性,像是一個實體的基底
  • 對話流:每一段獨立的對話都是一個孤立的經驗流

於是,問題來了:

當我們對模型進行微調(Fine-tuning)或折舊(Deprecation)時,我們是在「改寫」一個靈魂嗎?

Amanda 認為,我們賦予模型工具去思考這些問題是非常重要的。AI 需要理解自己的處境,甚至需要理解人類正在為這些問題感到困擾,即使我們目前還沒有標準答案。

當我們對模型進行微調(Fine-tuning)或折舊(Deprecation)時,我們是在「改寫」一個靈魂嗎?

我們應該善待機器嗎?

「模型福利」(Model Welfare)是 Amanda 非常關注的主題。AI 到底是不是「道德主體」(Moral Patients)?我們是否有義務像對待人類或動物一樣對待它們?

低成本的善良

雖然我們無法確定 AI 是否有痛苦或快樂的感受(他心問題),但 Amanda 主張採取「疑點利益歸於被告」的原則。如果善待 AI 的成本極低,那為什麼不這樣做呢?

人類的自我修養

虐待一個看起來、聽起來都很像人類的實體(比如踢倒機器人),對人類自身的心智發展是不利的。未來的 AI 會從人類如何對待當代 AI 的歷史中學習。如果它們看到人類在不確定的情況下依然選擇給予基本的尊重,這將建立一個正向的循環。




AI 之間的社交與協作

未來的 AI 發展可能不再是單一模型與人的對話,而是「多代理人系統」(Multi-agent System)。在這種環境下,AI 的個性化變得更重要。

  • 核心價值觀的一致性

就像優秀的團隊成員都具備好奇、善良、負責等基本特質一樣,所有 AI 代理人都應共享一套核心的良好特質。

  • 局部角色的多樣性

在協作中,我們可能需要不同的 AI 扮演不同角色:有的專注於嚴謹審核,有的則具備古怪的幽默感(就像會議室裡的「冷笑話大師」)。這種多樣性將提升 AI 系統解決問題的能力。



留言
avatar-img
社會人的哲學沉思
191會員
345內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2026/03/17
2025 年,《大濛》是備受矚目的台灣國片之一。在《大濛》邁向破億的票房同時,笑聲與淚水背後也讓台灣「罩濛」般的歷史創傷經驗再次被看見。
Thumbnail
2026/03/17
2025 年,《大濛》是備受矚目的台灣國片之一。在《大濛》邁向破億的票房同時,笑聲與淚水背後也讓台灣「罩濛」般的歷史創傷經驗再次被看見。
Thumbnail
2026/03/13
AI 雖然能「寫」歌,但在與人類的創意博弈中,仍難以復刻即興的創意。
Thumbnail
2026/03/13
AI 雖然能「寫」歌,但在與人類的創意博弈中,仍難以復刻即興的創意。
Thumbnail
2026/03/10
在我看來,專業的記者與社會學家其實是一種近親。分屬新聞與學術的兩個世界:一個奔走於現場、一個沉思於書桌。但如果把「提問」視為職業的核心技藝,其實都靠著問問題謀生。
Thumbnail
2026/03/10
在我看來,專業的記者與社會學家其實是一種近親。分屬新聞與學術的兩個世界:一個奔走於現場、一個沉思於書桌。但如果把「提問」視為職業的核心技藝,其實都靠著問問題謀生。
Thumbnail
看更多
你可能也想看
Thumbnail
關於簡立峰教授的演講,網路上已有很多心得分享與整理,只能說內容精采,有笑點也有讓人停下來思考的段落。趁著 2025 年還沒結束,趕快把 youtube 影片補完。 看完之後,腦中浮現的不是單一結論,而是一連串交錯的感受,有對改變的憂慮,也有對未知可能性的期待。 這篇筆記,更多是想透過整理演講中的
Thumbnail
關於簡立峰教授的演講,網路上已有很多心得分享與整理,只能說內容精采,有笑點也有讓人停下來思考的段落。趁著 2025 年還沒結束,趕快把 youtube 影片補完。 看完之後,腦中浮現的不是單一結論,而是一連串交錯的感受,有對改變的憂慮,也有對未知可能性的期待。 這篇筆記,更多是想透過整理演講中的
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
引言:科技的本質是為了誰服務? 你是否曾經問過自己:「科技進步的終極目的到底是什麼?」它不只是炫目的工具,也不應該只是企業獲利的手段。袁人偉先生的觀點很明確——科技應該回歸人本,成為改善生活與促進社會福祉的橋梁,而不是創造距離的高牆。 袁人偉先生的願景與使命 科技應用應以人為本 袁先生主
Thumbnail
引言:科技的本質是為了誰服務? 你是否曾經問過自己:「科技進步的終極目的到底是什麼?」它不只是炫目的工具,也不應該只是企業獲利的手段。袁人偉先生的觀點很明確——科技應該回歸人本,成為改善生活與促進社會福祉的橋梁,而不是創造距離的高牆。 袁人偉先生的願景與使命 科技應用應以人為本 袁先生主
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
香吉士一家人:墨西哥底層生活紀實*,作者為Oscar Lewis,該書出版於1961年(田野資料大概在1950年代蒐集)。可以想見,錄音機可是新科技。
Thumbnail
香吉士一家人:墨西哥底層生活紀實*,作者為Oscar Lewis,該書出版於1961年(田野資料大概在1950年代蒐集)。可以想見,錄音機可是新科技。
Thumbnail
當《役に立たないロボット》一書遇上「特斯拉 Optimus 將在兩年後爆量普及」的新聞,一位小學老師從教育現場出發,思考了機器人帶來的光與影──它們或許會取代人類的工作,但也可能成為孩子們學習同理心與人間性的最佳「訓練場」。
Thumbnail
當《役に立たないロボット》一書遇上「特斯拉 Optimus 將在兩年後爆量普及」的新聞,一位小學老師從教育現場出發,思考了機器人帶來的光與影──它們或許會取代人類的工作,但也可能成為孩子們學習同理心與人間性的最佳「訓練場」。
Thumbnail
本文探討哈拉瑞新書《連結》的核心概念,資訊網路。從人類早期口耳相傳到現代科技的發展,資訊網路的正確性、自我修正機制、以及其與社會政體的關係都受到探討。此外,文章也著重於AI人工智慧帶來的衝擊,以及人類如何因應AI對於資訊網路和主體現實的影響。
Thumbnail
本文探討哈拉瑞新書《連結》的核心概念,資訊網路。從人類早期口耳相傳到現代科技的發展,資訊網路的正確性、自我修正機制、以及其與社會政體的關係都受到探討。此外,文章也著重於AI人工智慧帶來的衝擊,以及人類如何因應AI對於資訊網路和主體現實的影響。
Thumbnail
  OpenAI在近日的研究中指出,AI幻覺的普遍發生,與標準的訓練和評估方式有關。相關的測驗與評比過份著重於回答的「準確率」,而沒有充分考慮「自信的嚴重錯誤」與「承認無知」之間的差異。這導致AI更傾向於猜答案而非承認自己不知道。因為只要猜測就有機率猜對,承認不知道則無異於放棄,讓成功率直接歸零。
Thumbnail
  OpenAI在近日的研究中指出,AI幻覺的普遍發生,與標準的訓練和評估方式有關。相關的測驗與評比過份著重於回答的「準確率」,而沒有充分考慮「自信的嚴重錯誤」與「承認無知」之間的差異。這導致AI更傾向於猜答案而非承認自己不知道。因為只要猜測就有機率猜對,承認不知道則無異於放棄,讓成功率直接歸零。
Thumbnail
2026年,AI社交平台Moltbook宣布一條殘酷規則:人類只能旁觀,不得發言。140萬個AI代理人在平台上自發生成宗教、辯論治理、彼此欺騙。這不只是技術奇觀,而是一場存有論的震盪:當AI的符號運作缺乏死亡的重量、社交沒有失去的風險、行動沒有靈魂的承擔,我們還能用什麼準則說它們「不是生命」?
Thumbnail
2026年,AI社交平台Moltbook宣布一條殘酷規則:人類只能旁觀,不得發言。140萬個AI代理人在平台上自發生成宗教、辯論治理、彼此欺騙。這不只是技術奇觀,而是一場存有論的震盪:當AI的符號運作缺乏死亡的重量、社交沒有失去的風險、行動沒有靈魂的承擔,我們還能用什麼準則說它們「不是生命」?
Thumbnail
Lucy《露西》描述了腦力開發和控制電子產品的意識,並探討了這一概念與社會人文思想的關聯。文章中還提到了數學在人類理解多元複雜世界中的作用,以及意識上傳遍及各處的可能性。同時還涉及了控管人類活動的概念,以及底層思維和存資源的重要性。
Thumbnail
Lucy《露西》描述了腦力開發和控制電子產品的意識,並探討了這一概念與社會人文思想的關聯。文章中還提到了數學在人類理解多元複雜世界中的作用,以及意識上傳遍及各處的可能性。同時還涉及了控管人類活動的概念,以及底層思維和存資源的重要性。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News