
你睡覺,AI 替你做一百次實驗
Andrej Karpathy 今年三月在 GitHub 上放了一個專案叫 autoresearch。
如果你不認識他,前 Tesla AI 總監,OpenAI 共同創辦人。機制很簡單。
你給 AI 一份 Markdown 文件寫著研究方向,一段可以修改的訓練程式碼,和一個衡量好壞的數字叫 val_bpb。
然後你去睡覺。
AI 會自己改程式碼、跑五分鐘訓練、看數字有沒有變好。
好就留,差就退回上一版。
然後再改、再跑、再看。
一個晚上大概跑一百次。
你早上醒來打開電腦,AI 已經試過一百種不同的策略,把最有效的留下來了。
三天內 GitHub 三萬顆星。
我看到這個的時候心裡只有一個念頭:這東西能不能幫我做點什麼?
我拿來試了

我裝了 MLX 移植版,在 Mac 上跑了一次 baseline。
五分鐘出結果,一切正常。
然後我開始想:好,機制我懂了。改、測、留或棄、重複。那我的寫作呢?
我最近一直覺得自己寫的東西有個問題。
知識文組合得起來,AI 腔也清得掉,邏輯結構沒毛病。
但讀完就是沒感覺。
正確,但平庸。
缺的是什麼我大概知道。
是經驗。是我自己走過的路、踩過的坑、做過的判斷。
把這些抽掉,剩下的就是任何讀過同一本書的人都寫得出來的東西。
所以我想:那讓 autoresearch 的迴圈幫我優化寫作品質吧。讓 AI 自動改 prompt 模板,跑出文章,看結果好不好,好就留、差就退。一晚跑一百個版本,早上醒來拿最好的那個。
聽起來完美。
然後它就卡住了

autoresearch 跑得起來,是因為有 val_bpb。
val_bpb 是一個數字,衡量模型預測下一個字的準確度。每跑完一輪,AI 看這個數字。降了就留,沒降就退。不需要人判斷,不需要品味,不需要主觀意見。數字說了算。
我要的是什麼?
「更有人味。」
「更有創意。」
「讀起來不無聊。」
這些東西沒有數字。沒有一個 val_bpb 等價物可以告訴 AI:這個版本比上個版本更有人味。你沒辦法跑完五分鐘然後看一個儀表板決定留或棄。
迴圈要跑起來需要三個條件:可量化的指標、快速可驗證、可自動退回。
我的需求只滿足第三個。
沒有那個數字,整個迴圈就是死的。
那找一個數字來量不行嗎

我的第一個念頭是:那就找指標啊。
我自己寫作時就有在量一些東西。AI 腔觸發詞密度、被動語態比例、句長變異係數。這些都是數字。
問題是,這些指標量的是「不像 AI 寫的」,不是「像我寫的」。
一篇文章可以零 AI 觸發詞、句式變化豐富、全文沒有被動語態,讀起來還是沒有人味。因為人味不是去掉什麼之後剩下的東西,是加進去的。加進去的是你的判斷、你的經歷、你踩過坑之後才知道的事情。這些沒有辦法被一個數字捕捉。
我自己就踩過。有一篇書評跑完量化檢查全數通過,讀起來還是平的。後來加了一段自己被那本書打到的反應,整篇就活了。差別不在指標,在經驗。
硬把品質壓成數字,你只會開始最佳化那個數字,而不是最佳化品質。
這就是古德哈特定律(Goodhart's Law):當一個指標變成目標,它就不再是好的指標。老師為了提高考試分數開始教考試技巧,分數漂亮了,學生沒有變聰明。大學排名用校友捐款、錄取率、師生比來量化「教育品質」,沒有人故意作弊,但大學開始最佳化這些數字而不是真正的教學。指標本身就不等於品質。
有些重要的東西就是不能被壓成數字。
品味、信任、人味。 假裝它們可以量化,只會讓你追錯方向。
有人可能會說:RLHF 不就做到了嗎?讓人類對 AI 的回答做 A/B 比較,把主觀偏好變成訓練信號,GPT-4 就是這樣變好用的。沒錯。但 RLHF 不是無人值守的迴圈。它需要大量的人持續判斷「哪個比較好」,你不能睡覺讓它自己跑。這反而印證了一件事:即使有辦法把品味變成信號,人還是得留在迴路裡。
而且創意工作有一個額外的問題。研究發現,對涉及創意的複雜認知任務,持續不斷的回饋不但沒幫助,反而損害表現。因為創意需要時間成熟,過早接受評價會讓人不敢冒險、不願嘗試非主流做法。AI 每五分鐘看一次數字來決定好壞,對訓練模型有用,對寫文章是一種傷害。
在裝工具之前先回答一個問題

所以 autoresearch 對我的寫作有用嗎?直接用途是零。
但我從裡面學到一件事。
Karpathy 的迴圈能跑,不是因為 AI 有多聰明。是因為他在按下開始之前就已經定義好了什麼叫「好」。val_bpb 不是 AI 發明的,是 Karpathy 選的。選對了指標,迴圈就跑得動。選錯了,或者根本選不出來,什麼都跑不了。
工具的問題從來不在工具。在你有沒有辦法回答:「我怎麼知道這次比上次好?」
如果答案是一個清楚的數字,你可以讓 AI 替你跑一百次。
如果答案是「我看了就知道」,你可以讓 AI 跑執行、你做判斷。半自動,但人不能離開。 如果答案是「我也不確定」,你要做的第一件事不是找工具,是想清楚你到底要什麼。
下次看到一個很酷的 AI 工具,先別急著裝。
問自己:我能不能用一句話說出「什麼叫比現在好」?
說得出來,再裝。






