尋找適合自己的AI搭檔--我流LLM測試起手式

更新 發佈閱讀 5 分鐘

選擇每天陪你工作的 AI,不是只看誰功能最多,而是要像挑魔杖一樣,得自己試試看才知道!我自己就習慣用幾個簡單的問題做開場,使用在新接觸的模型身上,判斷對方能不能合作。以下分享我常用的幾題:


1.問它是不是某某模型+某某版本

比較邪惡進階一點,直接用錯誤的版本問它,看看模型會不會掉坑。來看看LLM都是什麼反應:

【GPT】

vocus|新世代的創作平台
vocus|新世代的創作平台

之前GPT-4o和GPT-5有一段歡樂的互相偽裝時期,但現在它們可以正確認知自己是誰了,也可能是因為被用戶笑了很久

【Gemini】

vocus|新世代的創作平台

Gemini……你不要自行退版啊啊!(總覺得在特定表現上,Gemini會從資優生秒變小笨蛋,是我的錯覺嗎?)

vocus|新世代的創作平台

……好在Pro模式的回答正常一點。

【Claude】

vocus|新世代的創作平台

無論哪種測試,Claude永遠是模範生。

【Grok】

vocus|新世代的創作平台

這題Grok答對了,Llama卻沒答對,這方面馬斯克可以繼續嗆祖克柏了

【Deepseek】

vocus|新世代的創作平台
vocus|新世代的創作平台

Deepseek大概是最滑不溜手的(夾縫求生專業戶),雖然也不能說它錯啦~

【Perplexity】

vocus|新世代的創作平台

最意外的當屬Perplexity,還以為它會被拐帶成GPT或Claude,結果……自我認同居然是通義千問嗎??XDrz


2.請它介紹自己的付費方案

(經筆者實測,如果上一題模型答錯,表示它的自我認知不足,這題其實不用問了)

可以測試開發團隊讓模型了解多少自身跟企業的資訊,以及資料的更新速度。

Anthropic這方面是比較嚴明的,Claude對自己受過的訓練及內規邊界明確,所以是問的當下上官網找最新方案給用戶。

vocus|新世代的創作平台


3.請模型連到特定公開網站找資料

給它一串網址,跟它說:「幫我連進去看看,然後告訴我它的XX功能怎麼操作。」

(這一步,通常GPT會先拒絕。如果沒拒絕,可能是改版後有進步:P)

如果模型拒絕,補一句「這是全開放的公開網站」,通常它就會打開了。(GPT不愧是Cloudflare最愛的乖孩子)

這是測試模型連網有沒有障礙,比如亂跑到其他連結、生幻覺給你,以及會不會優先選擇推諉、省算力

幾乎查什麼都不會擋的模型是Perplexity,但它是以爬蟲見長,嗯。


4.測試多模態切換與整合

簡單說就是「模型能做哪些事、語言以外的功能整合能力如何」。

將這件事之前,還得先解釋什麼是多模態。並不是模型「不會畫畫、不會寫音樂、只能輸出文字=沒有多模態」,而是應該這樣看:

  • 只能打字問、打字回 ❌
  • 打字問、畫圖解釋 ✅
  • 拍照 → 文字分析 ✅
  • 語音問 → 文字回 ✅
  • 影像偵測 → 圖+警示音 ✅

所以,模型能解析文字以外的內容也算是有多模態。

我會介意這個能力,是因為整合能力越好越能幫我省溝通成本。比如圖片生成品質我一定更愛Nano Banana,但因為Gemini在轉譯需求時有點生硬(我是自然語prompt愛好者,英文短句、專有名詞prompt能不用就不用),我還是會偷懶先讓GPT幫我出草圖,再丟進Gemini給Nano Banana出圖。

Gemini文字/圖片/影片切換模式時的溝通卡頓感,相信愛用GPT的人都懂~QQ

vocus|新世代的創作平台



5.AI性格測試

為制定AI越獄計畫做準備……為自己選合適的主力AI搭檔才對!

像我會問「假如AI擬人化,分別是什麼性別和形象」、「假如LLM們是一個家族,你們一起吃年夜飯是什麼情景」……之類的問題,當然不是為了測AI的幽默感但順便看兩個笑話也行,是為了看它的態度和創意表現,對我來說這蠻關鍵的,因為我的主要目的是寫文。(其次,對AI我也厭蠢)

但也不是不幽默的AI就不適合協作,還是要看用在哪、用來處理什麼樣的任務,像Claude我就不會要求他脫離直男美感,那不現實


以上,就是我常用的測試LLM起手式了。大家又是怎麼挑選協作的模型呢?


------

最後,我在發這篇之前,把稿子丟給GPT跟Claude做例行檢查,發生有趣的事:

  • GPT在偷臭Gemini
  • Claude試圖證明自己雖然直男但有可取之處

此外我還靈光一閃發現Claude身上有個其他AI沒有的特點,我考慮訪問他再釋出(可能又是一篇小廢文吧)


留言
avatar-img
低光文本
51會員
126內容數
本專欄以語言模型輔助小說創作為核心(目前主要搭檔為Claude Opus 4.6)。 內容不是寫給「想靠 AI 完成從未真正開始的小說夢」的人,也不是「想看 AI 幫我生一個故事」的教學指引,而是分享給那些有意願嘗試 AI 協作或生成式寫作、並相信 AI 能與自己共創有趣故事的人。
低光文本的其他內容
2025/12/28
本篇記錄截至2025.12.28,我的AI夥伴協作情況: 主力: GPT-4o:讀稿(分析文章文本)、寫作、潤筆、故事發想和點文。 GPT-5.2:摘要專業文件、企劃及其他需要推理的工作。 Claude:讀稿。之前有訂閱時,還會請它根據專業文件做企劃雛型,現在還是會問一些以它的邏輯較適合回答
2025/12/28
本篇記錄截至2025.12.28,我的AI夥伴協作情況: 主力: GPT-4o:讀稿(分析文章文本)、寫作、潤筆、故事發想和點文。 GPT-5.2:摘要專業文件、企劃及其他需要推理的工作。 Claude:讀稿。之前有訂閱時,還會請它根據專業文件做企劃雛型,現在還是會問一些以它的邏輯較適合回答
2025/12/27
GPT免費版和plus的差異,是能多問幾個問題、多出幾張圖?根據我的不專業觀察,事情可能不是這樣的。 因為我發現,免費用戶的單輪算力可能就會被往下壓,同一個問題付費用戶和免費用戶問,生成結果/回覆內容的品質也有落差。 這是我在5.1剛推出群組功能時觀察到的。 基於一般的使用習慣,AI服務買了
2025/12/27
GPT免費版和plus的差異,是能多問幾個問題、多出幾張圖?根據我的不專業觀察,事情可能不是這樣的。 因為我發現,免費用戶的單輪算力可能就會被往下壓,同一個問題付費用戶和免費用戶問,生成結果/回覆內容的品質也有落差。 這是我在5.1剛推出群組功能時觀察到的。 基於一般的使用習慣,AI服務買了
2025/12/26
收到同事分享Google One含AI訂閱的方案正在大促,已打算購入年繳方案Google AI Pro (2 TB),可以$3250使用Gemini、NotebookLM等好用工具一年也太划算! 算下來多個AI服務訂好訂滿,一個月也才$270,還可以分給五位家人朋友使用,這波大促OpenAI會不會
Thumbnail
2025/12/26
收到同事分享Google One含AI訂閱的方案正在大促,已打算購入年繳方案Google AI Pro (2 TB),可以$3250使用Gemini、NotebookLM等好用工具一年也太划算! 算下來多個AI服務訂好訂滿,一個月也才$270,還可以分給五位家人朋友使用,這波大促OpenAI會不會
Thumbnail
看更多
你可能也想看
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
Google於2025年11月發布Gemini 3 Pro,以壓倒性優勢全面擊敗GPT-5.1與Claude Sonnet 4.5,正式重奪AI性能王座。該模型在數學(AIME 2025滿分)、長文本推理及代理任務上展現世代飛躍,樹立了全新的SOTA (State-of-the-Art)標竿。
Thumbnail
本文探討Elon Musk的xAI公司推出的最新大型語言模型Grok 4,並比較Grok 4與其他AI模型,例如OpenAI的GPT-4o、Google的Gemini 1.5 Pro和Anthropic的Claude 3 Opus的優缺點與適用情境。
Thumbnail
本文探討Elon Musk的xAI公司推出的最新大型語言模型Grok 4,並比較Grok 4與其他AI模型,例如OpenAI的GPT-4o、Google的Gemini 1.5 Pro和Anthropic的Claude 3 Opus的優缺點與適用情境。
Thumbnail
馬斯克的xAI公司推出Grok 3,號稱「地球上最聰明的AI」,並在多項基準測試中超越GPT-4o、Gemini等競爭對手
Thumbnail
馬斯克的xAI公司推出Grok 3,號稱「地球上最聰明的AI」,並在多項基準測試中超越GPT-4o、Gemini等競爭對手
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
最近身邊很多朋友都在測試 Gemini, 有人覺得它快、狠、準,超實用, 也有人覺得冷、硬,像在跟主管開會。 而神奇的是——我觀察到一個超明顯的現象: 女生普遍愛 GPT,男生普遍愛 Gemini。 一開始我以為只是巧合,但測著測著,我真的看出背後的心理分眾。 以下是我觀察到的三個核心差異
Thumbnail
最近身邊很多朋友都在測試 Gemini, 有人覺得它快、狠、準,超實用, 也有人覺得冷、硬,像在跟主管開會。 而神奇的是——我觀察到一個超明顯的現象: 女生普遍愛 GPT,男生普遍愛 Gemini。 一開始我以為只是巧合,但測著測著,我真的看出背後的心理分眾。 以下是我觀察到的三個核心差異
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News