我試了 Karpathy 的 AI 自動實驗工具，發現問題不在工具

你睡覺，AI 替你做一百次實驗

Andrej Karpathy 今年三月在 GitHub 上放了一個專案叫 autoresearch。

如果你不認識他，前 Tesla AI 總監，OpenAI 共同創辦人。

機制很簡單。
你給 AI 一份 Markdown 文件寫著研究方向，一段可以修改的訓練程式碼，和一個衡量好壞的數字叫 val_bpb。
然後你去睡覺。

AI 會自己改程式碼、跑五分鐘訓練、看數字有沒有變好。
好就留，差就退回上一版。
然後再改、再跑、再看。

一個晚上大概跑一百次。
你早上醒來打開電腦，AI 已經試過一百種不同的策略，把最有效的留下來了。

三天內 GitHub 三萬顆星。
我看到這個的時候心裡只有一個念頭：這東西能不能幫我做點什麼？

我裝了 MLX 移植版，在 Mac 上跑了一次 baseline。
五分鐘出結果，一切正常。

然後我開始想：好，機制我懂了。改、測、留或棄、重複。那我的寫作呢？

我最近一直覺得自己寫的東西有個問題。
知識文組合得起來，AI 腔也清得掉，邏輯結構沒毛病。
但讀完就是沒感覺。
正確，但平庸。

缺的是什麼我大概知道。
是經驗。是我自己走過的路、踩過的坑、做過的判斷。
把這些抽掉，剩下的就是任何讀過同一本書的人都寫得出來的東西。

所以我想：那讓 autoresearch 的迴圈幫我優化寫作品質吧。讓 AI 自動改 prompt 模板，跑出文章，看結果好不好，好就留、差就退。一晚跑一百個版本，早上醒來拿最好的那個。

聽起來完美。

autoresearch 跑得起來，是因為有 val_bpb。

val_bpb 是一個數字，衡量模型預測下一個字的準確度。每跑完一輪，AI 看這個數字。降了就留，沒降就退。不需要人判斷，不需要品味，不需要主觀意見。數字說了算。

我要的是什麼？
「更有人味。」
「更有創意。」
「讀起來不無聊。」

這些東西沒有數字。沒有一個 val_bpb 等價物可以告訴 AI：這個版本比上個版本更有人味。你沒辦法跑完五分鐘然後看一個儀表板決定留或棄。

迴圈要跑起來需要三個條件：可量化的指標、快速可驗證、可自動退回。
我的需求只滿足第三個。

沒有那個數字，整個迴圈就是死的。

我的第一個念頭是：那就找指標啊。
我自己寫作時就有在量一些東西。AI 腔觸發詞密度、被動語態比例、句長變異係數。這些都是數字。

問題是，這些指標量的是「不像 AI 寫的」，不是「像我寫的」。

一篇文章可以零 AI 觸發詞、句式變化豐富、全文沒有被動語態，讀起來還是沒有人味。因為人味不是去掉什麼之後剩下的東西，是加進去的。加進去的是你的判斷、你的經歷、你踩過坑之後才知道的事情。這些沒有辦法被一個數字捕捉。

我自己就踩過。有一篇書評跑完量化檢查全數通過，讀起來還是平的。後來加了一段自己被那本書打到的反應，整篇就活了。差別不在指標，在經驗。

硬把品質壓成數字，你只會開始最佳化那個數字，而不是最佳化品質。

這就是古德哈特定律（Goodhart's Law）：當一個指標變成目標，它就不再是好的指標。老師為了提高考試分數開始教考試技巧，分數漂亮了，學生沒有變聰明。大學排名用校友捐款、錄取率、師生比來量化「教育品質」，沒有人故意作弊，但大學開始最佳化這些數字而不是真正的教學。指標本身就不等於品質。

有些重要的東西就是不能被壓成數字。

品味、信任、人味。假裝它們可以量化，只會讓你追錯方向。

有人可能會說：RLHF 不就做到了嗎？讓人類對 AI 的回答做 A/B 比較，把主觀偏好變成訓練信號，GPT-4 就是這樣變好用的。沒錯。但 RLHF 不是無人值守的迴圈。它需要大量的人持續判斷「哪個比較好」，你不能睡覺讓它自己跑。這反而印證了一件事：即使有辦法把品味變成信號，人還是得留在迴路裡。

而且創意工作有一個額外的問題。研究發現，對涉及創意的複雜認知任務，持續不斷的回饋不但沒幫助，反而損害表現。因為創意需要時間成熟，過早接受評價會讓人不敢冒險、不願嘗試非主流做法。AI 每五分鐘看一次數字來決定好壞，對訓練模型有用，對寫文章是一種傷害。

所以 autoresearch 對我的寫作有用嗎？直接用途是零。

但我從裡面學到一件事。

Karpathy 的迴圈能跑，不是因為 AI 有多聰明。是因為他在按下開始之前就已經定義好了什麼叫「好」。val_bpb 不是 AI 發明的，是 Karpathy 選的。選對了指標，迴圈就跑得動。選錯了，或者根本選不出來，什麼都跑不了。

工具的問題從來不在工具。在你有沒有辦法回答：「我怎麼知道這次比上次好？」

如果答案是一個清楚的數字，你可以讓 AI 替你跑一百次。
如果答案是「我看了就知道」，你可以讓 AI 跑執行、你做判斷。半自動，但人不能離開。如果答案是「我也不確定」，你要做的第一件事不是找工具，是想清楚你到底要什麼。

下次看到一個很酷的 AI 工具，先別急著裝。
問自己：我能不能用一句話說出「什麼叫比現在好」？

說得出來，再裝。