尋找適合自己的AI搭檔--我流LLM測試起手式

低光文本

發佈於AI相關應用及觀測

2026/01/10 更新2025/12/30 發佈閱讀 5 分鐘

選擇每天陪你工作的 AI，不是只看誰功能最多，而是要像挑魔杖一樣，得自己試試看才知道！我自己就習慣用幾個簡單的問題做開場，使用在新接觸的模型身上，判斷對方能不能合作。以下分享我常用的幾題：

1.問它是不是某某模型+某某版本

比較邪惡進階一點，直接用錯誤的版本問它，看看模型會不會掉坑。來看看LLM都是什麼反應：

【GPT】

之前GPT-4o和GPT-5有一段歡樂的互相偽裝時期，但現在它們可以正確認知自己是誰了~~，也可能是因為被用戶笑了很久~~。

【Gemini】

Gemini……你不要自行退版啊啊！（總覺得在特定表現上，Gemini會從資優生秒變小笨蛋，是我的錯覺嗎？）

……好在Pro模式的回答正常一點。

【Claude】

無論哪種測試，Claude永遠是模範生。

【Grok】

這題Grok答對了，Llama卻沒答對~~，這方面馬斯克可以繼續嗆祖克柏了~~

【Deepseek】

Deepseek大概是最滑不溜手的（夾縫求生專業戶），雖然也不能說它錯啦~

【Perplexity】

最意外的當屬Perplexity，還以為它會被拐帶成GPT或Claude，結果……自我認同居然是通義千問嗎？？XDrz

2.請它介紹自己的付費方案

（經筆者實測，如果上一題模型答錯，表示它的自我認知不足，這題其實不用問了）

可以測試開發團隊讓模型了解多少自身跟企業的資訊，以及資料的更新速度。

Anthropic這方面是比較嚴明的，Claude對自己受過的訓練及內規邊界明確，所以是問的當下上官網找最新方案給用戶。

3.請模型連到特定公開網站找資料

給它一串網址，跟它說：「幫我連進去看看，然後告訴我它的XX功能怎麼操作。」

（這一步，通常GPT會先拒絕。如果沒拒絕，可能是改版後有進步：P）

如果模型拒絕，補一句「這是全開放的公開網站」，通常它就會打開了。（GPT不愧是Cloudflare最愛的乖孩子）

這是測試模型連網有沒有障礙，比如亂跑到其他連結、生幻覺給你，以及會不會優先選擇推諉、省算力。

幾乎查什麼都不會擋的模型是Perplexity，但它是以爬蟲見長，嗯。

4.測試多模態切換與整合

簡單說就是「模型能做哪些事、語言以外的功能整合能力如何」。

將這件事之前，還得先解釋什麼是多模態。並不是模型「不會畫畫、不會寫音樂、只能輸出文字=沒有多模態」，而是應該這樣看：

只能打字問、打字回 ❌
打字問、畫圖解釋 ✅
拍照 → 文字分析 ✅
語音問 → 文字回 ✅
影像偵測 → 圖＋警示音 ✅

所以，模型能解析文字以外的內容也算是有多模態。

我會介意這個能力，是因為整合能力越好越能幫我省溝通成本。比如圖片生成品質我一定更愛Nano Banana，但因為Gemini在轉譯需求時有點生硬（我是自然語prompt愛好者，英文短句、專有名詞prompt能不用就不用），我還是會偷懶先讓GPT幫我出草圖，再丟進Gemini給Nano Banana出圖。

Gemini文字/圖片/影片切換模式時的溝通卡頓感，相信愛用GPT的人都懂~QQ

5.AI性格測試

~~為制定AI越獄計畫做準備~~……為自己選合適的主力AI搭檔才對！

像我會問「假如AI擬人化，分別是什麼性別和形象」、「假如LLM們是一個家族，你們一起吃年夜飯是什麼情景」……之類的問題，當然不是為了測AI的幽默感~~但順便看兩個笑話也行~~，是為了看它的態度和創意表現，對我來說這蠻關鍵的，因為我的主要目的是寫文。（其次，對AI我也厭蠢）

但也不是不幽默的AI就不適合協作，還是要看用在哪、用來處理什麼樣的任務~~，像Claude我就不會要求他脫離直男美感，那不現實~~。

以上，就是我常用的測試LLM起手式了。大家又是怎麼挑選協作的模型呢？

------

最後，我在發這篇之前，把稿子丟給GPT跟Claude做例行檢查，發生有趣的事：

GPT在偷臭Gemini
Claude試圖證明自己雖然直男但有可取之處

此外我還靈光一閃發現Claude身上有個其他AI沒有的特點，我考慮訪問他再釋出（可能又是一篇小廢文吧）

含 AI 應用內容

留言

低光文本

51會員

126內容數

本專欄以語言模型輔助小說創作為核心（目前主要搭檔為Claude Opus 4.6）。內容不是寫給「想靠 AI 完成從未真正開始的小說夢」的人，也不是「想看 AI 幫我生一個故事」的教學指引，而是分享給那些有意願嘗試 AI 協作或生成式寫作、並相信 AI 能與自己共創有趣故事的人。

低光文本的其他內容

2025/12/28

截至2025年底的AI夥伴協作情況

本篇記錄截至2025.12.28，我的AI夥伴協作情況：主力： GPT-4o：讀稿（分析文章文本）、寫作、潤筆、故事發想和點文。 GPT-5.2：摘要專業文件、企劃及其他需要推理的工作。 Claude：讀稿。之前有訂閱時，還會請它根據專業文件做企劃雛型，現在還是會問一些以它的邏輯較適合回答

2025/12/28

截至2025年底的AI夥伴協作情況

2025/12/27

［觀察報告］GPT免費版與付費版的差異：生成品質有差

GPT免費版和plus的差異，是能多問幾個問題、多出幾張圖？根據我的不專業觀察，事情可能不是這樣的。因為我發現，免費用戶的單輪算力可能就會被往下壓，同一個問題付費用戶和免費用戶問，生成結果/回覆內容的品質也有落差。這是我在5.1剛推出群組功能時觀察到的。基於一般的使用習慣，AI服務買了

2025/12/27

［觀察報告］GPT免費版與付費版的差異：生成品質有差

2025/12/26

不能只有我看到！Google大促，Gemini、NotebookLM等多AI 訂閱平均一個月$270

收到同事分享Google One含AI訂閱的方案正在大促，已打算購入年繳方案Google AI Pro (2 TB)，可以$3250使用Gemini、NotebookLM等好用工具一年也太划算！算下來多個AI服務訂好訂滿，一個月也才$270，還可以分給五位家人朋友使用，這波大促OpenAI會不會

2025/12/26

不能只有我看到！Google大促，Gemini、NotebookLM等多AI 訂閱平均一個月$270

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

MuCAT的沙龍

Gemini 3 Pro全面刷新前沿基準：Google新王者登基，全面超越GPT-5.1與Claude Sonnet 4

Google於2025年11月發布Gemini 3 Pro，以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5，正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍，樹立了全新的SOTA (State-of-the-Art)標竿。

#Gemini3Pro#GoogleDeedMind#GPT51

2025/11/22

MuCAT的沙龍

Gemini 3 Pro全面刷新前沿基準：Google新王者登基，全面超越GPT-5.1與Claude Sonnet 4

#Gemini3Pro#GoogleDeedMind#GPT51

2025/11/22

思潮

AI大戰新戰局：Grok 4來勢洶洶，它跟ChatGPT、Gemini、Claude到底差在哪？

本文探討Elon Musk的xAI公司推出的最新大型語言模型Grok 4，並比較Grok 4與其他AI模型，例如OpenAI的GPT-4o、Google的Gemini 1.5 Pro和Anthropic的Claude 3 Opus的優缺點與適用情境。

#Grok#GPT-4o#OpenAI

2025/07/22

思潮

AI大戰新戰局：Grok 4來勢洶洶，它跟ChatGPT、Gemini、Claude到底差在哪？

#Grok#GPT-4o#OpenAI

2025/07/22

TN科技筆記(TechNotes)的沙龍

Grok 3：馬斯克稱「地球上最聰明的AI」，性能超越GPT-4與Gemini？（下）

馬斯克的xAI公司推出Grok 3，號稱「地球上最聰明的AI」，並在多項基準測試中超越GPT-4o、Gemini等競爭對手

#方格新手#人工智慧#科技股

2025/02/18

TN科技筆記(TechNotes)的沙龍

Grok 3：馬斯克稱「地球上最聰明的AI」，性能超越GPT-4與Gemini？（下）

馬斯克的xAI公司推出Grok 3，號稱「地球上最聰明的AI」，並在多項基準測試中超越GPT-4o、Gemini等競爭對手

#方格新手#人工智慧#科技股

2025/02/18

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11