我試了 Karpathy 的 AI 自動實驗工具,發現問題不在工具

更新 發佈閱讀 6 分鐘
vocus|新世代的創作平台

你睡覺,AI 替你做一百次實驗

Andrej Karpathy 今年三月在 GitHub 上放了一個專案叫 autoresearch。

如果你不認識他,前 Tesla AI 總監,OpenAI 共同創辦人。

機制很簡單。
你給 AI 一份 Markdown 文件寫著研究方向,一段可以修改的訓練程式碼,和一個衡量好壞的數字叫 val_bpb。
然後你去睡覺。

AI 會自己改程式碼、跑五分鐘訓練、看數字有沒有變好。
好就留,差就退回上一版。
然後再改、再跑、再看。

一個晚上大概跑一百次。
你早上醒來打開電腦,AI 已經試過一百種不同的策略,把最有效的留下來了。

三天內 GitHub 三萬顆星。
我看到這個的時候心裡只有一個念頭:這東西能不能幫我做點什麼?


我拿來試了

vocus|新世代的創作平台

我裝了 MLX 移植版,在 Mac 上跑了一次 baseline。
五分鐘出結果,一切正常。

然後我開始想:好,機制我懂了。改、測、留或棄、重複。那我的寫作呢?

我最近一直覺得自己寫的東西有個問題。
知識文組合得起來,AI 腔也清得掉,邏輯結構沒毛病。
但讀完就是沒感覺。
正確,但平庸。

缺的是什麼我大概知道。
是經驗。是我自己走過的路、踩過的坑、做過的判斷。
把這些抽掉,剩下的就是任何讀過同一本書的人都寫得出來的東西。

所以我想:那讓 autoresearch 的迴圈幫我優化寫作品質吧。讓 AI 自動改 prompt 模板,跑出文章,看結果好不好,好就留、差就退。一晚跑一百個版本,早上醒來拿最好的那個。

聽起來完美。


然後它就卡住了

vocus|新世代的創作平台

autoresearch 跑得起來,是因為有 val_bpb。

val_bpb 是一個數字,衡量模型預測下一個字的準確度。每跑完一輪,AI 看這個數字。降了就留,沒降就退。不需要人判斷,不需要品味,不需要主觀意見。數字說了算。

我要的是什麼?
「更有人味。」
「更有創意。」
「讀起來不無聊。」

這些東西沒有數字。沒有一個 val_bpb 等價物可以告訴 AI:這個版本比上個版本更有人味。你沒辦法跑完五分鐘然後看一個儀表板決定留或棄。

迴圈要跑起來需要三個條件:可量化的指標、快速可驗證、可自動退回。
我的需求只滿足第三個。

沒有那個數字,整個迴圈就是死的。


那找一個數字來量不行嗎

vocus|新世代的創作平台

我的第一個念頭是:那就找指標啊。
我自己寫作時就有在量一些東西。AI 腔觸發詞密度、被動語態比例、句長變異係數。這些都是數字。

問題是,這些指標量的是「不像 AI 寫的」,不是「像我寫的」。

一篇文章可以零 AI 觸發詞、句式變化豐富、全文沒有被動語態,讀起來還是沒有人味。因為人味不是去掉什麼之後剩下的東西,是加進去的。加進去的是你的判斷、你的經歷、你踩過坑之後才知道的事情。這些沒有辦法被一個數字捕捉。

我自己就踩過。有一篇書評跑完量化檢查全數通過,讀起來還是平的。後來加了一段自己被那本書打到的反應,整篇就活了。差別不在指標,在經驗。

硬把品質壓成數字,你只會開始最佳化那個數字,而不是最佳化品質。

這就是古德哈特定律(Goodhart's Law):當一個指標變成目標,它就不再是好的指標。老師為了提高考試分數開始教考試技巧,分數漂亮了,學生沒有變聰明。大學排名用校友捐款、錄取率、師生比來量化「教育品質」,沒有人故意作弊,但大學開始最佳化這些數字而不是真正的教學。指標本身就不等於品質。

有些重要的東西就是不能被壓成數字。

品味、信任、人味。 假裝它們可以量化,只會讓你追錯方向。

有人可能會說:RLHF 不就做到了嗎?讓人類對 AI 的回答做 A/B 比較,把主觀偏好變成訓練信號,GPT-4 就是這樣變好用的。沒錯。但 RLHF 不是無人值守的迴圈。它需要大量的人持續判斷「哪個比較好」,你不能睡覺讓它自己跑。這反而印證了一件事:即使有辦法把品味變成信號,人還是得留在迴路裡。

而且創意工作有一個額外的問題。研究發現,對涉及創意的複雜認知任務,持續不斷的回饋不但沒幫助,反而損害表現。因為創意需要時間成熟,過早接受評價會讓人不敢冒險、不願嘗試非主流做法。AI 每五分鐘看一次數字來決定好壞,對訓練模型有用,對寫文章是一種傷害。


在裝工具之前先回答一個問題

vocus|新世代的創作平台

所以 autoresearch 對我的寫作有用嗎?直接用途是零。

但我從裡面學到一件事。

Karpathy 的迴圈能跑,不是因為 AI 有多聰明。是因為他在按下開始之前就已經定義好了什麼叫「好」。val_bpb 不是 AI 發明的,是 Karpathy 選的。選對了指標,迴圈就跑得動。選錯了,或者根本選不出來,什麼都跑不了。

工具的問題從來不在工具。在你有沒有辦法回答:「我怎麼知道這次比上次好?」

如果答案是一個清楚的數字,你可以讓 AI 替你跑一百次。
如果答案是「我看了就知道」,你可以讓 AI 跑執行、你做判斷。半自動,但人不能離開。 如果答案是「我也不確定」,你要做的第一件事不是找工具,是想清楚你到底要什麼。

下次看到一個很酷的 AI 工具,先別急著裝。
問自己:我能不能用一句話說出「什麼叫比現在好」?

說得出來,再裝。

留言
avatar-img
為你說些事
6會員
28內容數
說點正經或不正經的話,可能抽象,小心服用。
為你說些事的其他內容
2026/03/13
我是 Wayne,一個從音樂老師轉型的知識研究宅。幾千張筆記爆炸過一次,才搞懂知識內化到底怎麼回事。這是我的自我介紹,也是這個帳號要做的事。
Thumbnail
2026/03/13
我是 Wayne,一個從音樂老師轉型的知識研究宅。幾千張筆記爆炸過一次,才搞懂知識內化到底怎麼回事。這是我的自我介紹,也是這個帳號要做的事。
Thumbnail
2026/03/12
你花了多少力氣控制人生?又花了多少力氣告訴自己放手?Alan Watts 發現,這兩件事失敗的原因一模一樣。更麻煩的是,知道這件事也幫不了你。
Thumbnail
2026/03/12
你花了多少力氣控制人生?又花了多少力氣告訴自己放手?Alan Watts 發現,這兩件事失敗的原因一模一樣。更麻煩的是,知道這件事也幫不了你。
Thumbnail
2026/03/09
同一個起點,三種搜尋方式,撈出來的東西差了兩個量級。我用自己的知識庫跑了一次實驗,結果讓我重新理解「創意」到底是什麼。
Thumbnail
2026/03/09
同一個起點,三種搜尋方式,撈出來的東西差了兩個量級。我用自己的知識庫跑了一次實驗,結果讓我重新理解「創意」到底是什麼。
Thumbnail
看更多