米蟲哥吉拉(Loni Chou)的沙龍
avatar-avatar
米蟲哥吉拉(Loni Chou)
發佈於其他
更新 發佈閱讀 2 分鐘
src

"Hacker News 討論者指出,這正是強化學習「精準執行訓練目標、但目標本身設計有缺陷」的經典案例",果然就是第三類行政錯誤(Type III Error):用正確的方法解決了錯誤的問題。

所以說,孩子的教育很重要,AI也是~


https://abmedia.io/openai-codex-goblins-explanation-nerdy-personality-reward-2026


這是一種模型退化現象,跟人類的口誤很像,我覺得一直單純的寫code、接受指令,語言模型會退化的吧? 不過哥布林在這件事上意外地跟奇幻設定一樣的大量繁殖;


"GPT-5.1 萌芽、GPT-5.5 復發:跨人格污染如何擴散

OpenAI 描述的演變過程是漸進的:哥布林與 gremlin 從 GPT-5.5 之前的世代就開始出現在比喻中,當時頻率「並未顯得特別令人警覺」。OpenAI 後來在訓練流程中曾刪除哥布林相關的獎勵訊號,但當 GPT-5.5 進入 Codex 測試時,OpenAI 員工立刻發現生物詞的偏好捲土重來,因此才在開發者提示詞層加上明確禁令暫時止血。

OpenAI 把這個現象稱為跨情境的獎勵泛化:原本只針對書呆子人格設計的獎勵訊號,因為訓練資料和模型內部表徵共享,把偏好擴散到其他人格、甚至預設輸出。換言之,即便後續移除書呆子人格本身,污染後的訓練資料和模型權重已內化此偏好,光靠下架功能無法根除。"


這一段根本就是哥布林大繁殖,滿嘴哥布林好像甚麼黑市黑話喔(大笑)

哥布林現象實際上是運作環境過於單調而導致的反射性偷懶吧?

OpenAI真的是放棄了他們最大的優勢(自然語言與個人化反應),去專攻寫code賺錢,結果模型越來越笨了

讀行者-avatar-img
讀行者和其他 1 人喜歡這篇
avatar-img
加入討論
avatar-avatar
米蟲哥吉拉(Loni Chou)
發佈於其他
更新 發佈閱讀 2 分鐘
src

"Hacker News 討論者指出,這正是強化學習「精準執行訓練目標、但目標本身設計有缺陷」的經典案例",果然就是第三類行政錯誤(Type III Error):用正確的方法解決了錯誤的問題。

所以說,孩子的教育很重要,AI也是~


https://abmedia.io/openai-codex-goblins-explanation-nerdy-personality-reward-2026


這是一種模型退化現象,跟人類的口誤很像,我覺得一直單純的寫code、接受指令,語言模型會退化的吧? 不過哥布林在這件事上意外地跟奇幻設定一樣的大量繁殖;


"GPT-5.1 萌芽、GPT-5.5 復發:跨人格污染如何擴散

OpenAI 描述的演變過程是漸進的:哥布林與 gremlin 從 GPT-5.5 之前的世代就開始出現在比喻中,當時頻率「並未顯得特別令人警覺」。OpenAI 後來在訓練流程中曾刪除哥布林相關的獎勵訊號,但當 GPT-5.5 進入 Codex 測試時,OpenAI 員工立刻發現生物詞的偏好捲土重來,因此才在開發者提示詞層加上明確禁令暫時止血。

OpenAI 把這個現象稱為跨情境的獎勵泛化:原本只針對書呆子人格設計的獎勵訊號,因為訓練資料和模型內部表徵共享,把偏好擴散到其他人格、甚至預設輸出。換言之,即便後續移除書呆子人格本身,污染後的訓練資料和模型權重已內化此偏好,光靠下架功能無法根除。"


這一段根本就是哥布林大繁殖,滿嘴哥布林好像甚麼黑市黑話喔(大笑)

哥布林現象實際上是運作環境過於單調而導致的反射性偷懶吧?

OpenAI真的是放棄了他們最大的優勢(自然語言與個人化反應),去專攻寫code賺錢,結果模型越來越笨了

讀行者-avatar-img
讀行者和其他 1 人喜歡這篇
avatar-img
加入討論