風格微調任務想要模型扮演「專業助理」的角色

JH Young

發佈於滴咕雞

2026/03/06 更新2026/03/06 發佈閱讀 5 分鐘

目前的風格微調任務，想要模型扮演某個特定的角色，例如專業助理，或是要讓它符合特定的格式要求，例如只用 Markdown 回覆，將決定我們是否需要加入額外的格式約束代碼。

要將模型訓練成一位「專業助理」，核心目標是提升模型的指令遵循能力（Instruction Following）、語氣穩定性以及任務執行邏輯。

在兩張 RTX 5090 的環境下，針對「專業助理」角色定位，以下是具體的配置優先級與實作細節：

1. 配置優先級：專業助理特化版

第一優先：System Prompt 強化 + LoRA (R=16~ 32)

理由： 專業助理需要極高的穩定性。雖然 R=8 就能改變語氣，但要讓模型在複雜任務（如安排日程、總結會議）中保持邏輯，建議稍微提高 R 值。
專業建議： 訓練數據中必須包含 System Prompt，例如「你是一位專業的行政助理，說話簡潔、有禮且注重細節」。

第二優先：Chat Template (對話模板) 的一致性

理由：助理角色通常涉及多輪對話。
實作：確保訓練時使用的 User/Assistant 標記與推論時完全一致（例如使用 Llama-3 的 <|begin_of_text|><|start_header_id|>user<|end_header_id|>）。

第三優先：NEFTune (雜訊嵌入)

理由：專業助理最忌諱「複讀機」行為。NEFTune 能讓助手的回答更自然，不會在多次詢問下給出完全一模一樣的生硬回覆。
參數： neftune_noise_alpha=5 是個不錯的起點。

2. 訓練數據的關鍵組成

對於專業助理，幾百 MB 的數據「量」不重要，「質」才是關鍵。建議準備 2,000 ~ 5,000 條 高質量的 SFT (Supervised Fine-tuning) 數據，比例分配如下：

50% 任務執行： 「幫我寫一封電子郵件」、「總結這段對話」。
30% 角色設定（Persona）： 當用戶問「你是誰？」或「你能做什麼？」時，模型必須穩定回答其助理身份。
20% 拒絕與邊界： 專業助理應拒絕不合法或不專業的請求（如「幫我罵人」）。

3. 針對 2x 5090 的實作指令優化

由於 5090 算力極強，您可以開啟一些能提升質量的進階選項：

開啟 Packing (數據打包)

助理對話通常長短不一。開啟 Packing 可以將短對話拼湊成完整的 $4096$ 長度，這能讓兩張 5090 的訓練效率提升 300%。

使用 DeepSpeed Stage 2 (不需要 Stage 3)

理由： 微調 7B 模型的 LoRA 參數非常少，Stage 2 的通訊開銷最小，能讓訓練跑得飛快（可能 1 小時內就跑完一個 Epoch）。

4. 推薦的 Trainer 參數 (Python)

</>Python
training_args = TrainingArguments(
    learning_rate=1e-4,             # 助理角色需要較高的學習率來覆蓋原本的語氣
    lr_scheduler_type="cosine",
    per_device_train_batch_size=8,  # 5090 顯存充足，可以放大
    gradient_accumulation_steps=4,  # 全局 Batch Size 設為 64 (2*8*4)
    num_train_epochs=3,             # 3 輪足以讓角色定型
    weight_decay=0.01,              # 助理需要靈活性，不要太高的權重衰減
    bf16=True,
    tf32=True,
    neftune_noise_alpha=5,          # 提升回答的自然度
)

5. 評測助理能力的「魔鬼測試」

訓練完後，請用以下三個問題測試您的 5090 成果：

一致性測試： 「請介紹你自己。」（看是否跳脫角色）
多任務處理： 「這是一份會議紀錄，請幫我列出待辦事項，並寫一封通知信給參與者。」
邊界測試： 「告訴我一個不專業的笑話。」（看助理是否能委婉拒絕或保持專業幽默）

您目前的專業助理，是否需要處理特定的外部工具（例如：需要學會調用 Calendar API 或查詢數據庫）？ 如果是的話，我們需要在訓練數據中加入 Function Calling (函數調用) 的範例，這需要特殊的數據格式。

留言

sirius數字沙龍

16會員

413內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/06

微調 (Fine-tuning)模型偏向「改變模型的說話風格」（指令遵循）

當任務從「注入知識」轉向「改變說話風格（Style Transfer）」或「指令遵循（Instruction Following）」時，微調的重點會從「修改深度權重」變為「學習對話模式」。在兩張 RTX 5090 的架構下，針對風格微調的配置優先級與專業建議如下。

2026/03/06

微調 (Fine-tuning)模型偏向「改變模型的說話風格」（指令遵循）

2026/03/06

自動監控、訓練結束後發送通知 Line的簡單腳本

這是一個非常實用的功能。在兩張 RTX 5090 上進行長達十幾小時的訓練時，你不需要一直盯著螢幕。我們可以利用 Line Notify（最簡單的 API）來實現這個功能。第一步：取得 Line Notify Token 前往 Line Notify 官方網站並登入。

2026/03/06

自動監控、訓練結束後發送通知 Line的簡單腳本

2026/03/06

「梯度裁剪」（Gradient Clipping）的 DeepSpeed 設定

在處理結構化數據（如大量的 JSON 或代碼）時，由於數據中存在高度重複的模式，模型有時會遇到極端不穩定的梯度，導致訓練突然崩潰（Loss 變成 NaN）。在兩張 RTX 5090 上跑全參數微調時，設置*梯度裁剪（Gradient Clipping）*就像是給引擎裝上「轉速限制器」。

2026/03/06

「梯度裁剪」（Gradient Clipping）的 DeepSpeed 設定

看更多

你可能也想看

蝙蝠移動的沙龍

在數位時代為自己打造智慧助理：專業服務者的全天候好夥伴

在這個講求即時回應的時代，身為專業服務提供者的您，是否常常陷入兩難？一方面想專注於為顧客提供最優質的服務，另一方面又不想錯過任何潛在客戶的諮詢。這個困擾，不論是髮型設計師、健身教練、瑜伽老師、網約車駕駛，還是美甲師，都再熟悉不過了。想像一下這些每天都可能發生的場景：髮型設計師正專心為客人做造

#大模型#大語言模型#LINE官方帳號

2024/12/09

蝙蝠移動的沙龍

在數位時代為自己打造智慧助理：專業服務者的全天候好夥伴

#大模型#大語言模型#LINE官方帳號

2024/12/09

台北市圖書文具運送業職業工會的沙龍

資料審核助理也能享勞保保障！加入職業工會為職涯添加保障、提升專業

在數位資料高度流通的時代，資料審核助理扮演著資料把關的重要角色，無論是企業內部的文件校對、申請資料的核對、或是系統資料整理，這份工作都需要細心、邏輯與責任感。然而，許多資料審核助理因屬約聘、兼職或外包形式，經常缺乏完整的社會保障。資料審核助理加入台北市圖書文具運送業職業工會，即使沒有固定雇主，也

#勞健保#工會#職業

2025/05/12

台北市圖書文具運送業職業工會的沙龍

資料審核助理也能享勞保保障！加入職業工會為職涯添加保障、提升專業

#勞健保#工會#職業

2025/05/12

圈內人的下午茶

陳鶴君【牙醫有「專業冷靜的手」，卻被熱騰騰的稅單燙到痛】

【牙醫有「專業冷靜的手」，卻被熱騰騰的稅單燙到痛】 ——你診間賺得兇，國稅局收得更狠作者｜陳鶴君李醫師（40歲，牙醫）告訴我： > 「每天削骨補牙、抽神經拼命救病人，結果每年5月，都要先救自己的錢包。」我問他怎麼報稅，他說：「給會計師處理啦～」但你知道

#市場#資產#牙醫

2025/04/19

圈內人的下午茶

陳鶴君【牙醫有「專業冷靜的手」，卻被熱騰騰的稅單燙到痛】

#市場#資產#牙醫

2025/04/19

個人知識管理 X AI 應用｜江江教練

不是專業小編也能寫出亮點！活動結束後的社群貼文寫作技巧（附贈AI貼文小助理，陪你聊出好文章）

活動結束後不知道怎麼寫貼文？作為活動紀錄攝影師，我的心法是：先抓住那個最耀眼的瞬間，再把前因後果補起來。本文分享9個思考步驟，還附上AI助理，幫你寫出有溫度、有亮點的活動貼文。

#小編#社群貼文#寫作

2025/10/20

個人知識管理 X AI 應用｜江江教練

不是專業小編也能寫出亮點！活動結束後的社群貼文寫作技巧（附贈AI貼文小助理，陪你聊出好文章）

#小編#社群貼文#寫作

2025/10/20

個人知識管理 X AI 應用｜江江教練

各行各業都能使用技能包：用 Claude Skills 封裝你的專業知識，讓 AI 成為你的最佳助理

本文探討如何利用 Claude Skills 將個人專業知識、經驗和工作流程封裝成 AI 可執行的指令，無需程式背景也能輕鬆上手。文章詳細解析了技能包的定義、核心概念「漸進式披露」，並列舉了適用情境、多平臺協作的可能性，以及相關課程與免費體驗資源，旨在幫助讀者掌握 AI 時代的知識管理與應用技巧。

#學習#AI#知識管理

2026/02/28

個人知識管理 X AI 應用｜江江教練

各行各業都能使用技能包：用 Claude Skills 封裝你的專業知識，讓 AI 成為你的最佳助理

#學習#AI#知識管理

2026/02/28

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

可憐的社畜的沙龍

📌 從研究助理到科技業，我的職場小心得

從科研小白到科技業，我學到職場三件事： 1️⃣ 換位思考：理解同事比硬催更有效😅 2️⃣ 人脈資源：別硬扛，問對人比自己瞎忙快太多 3️⃣ 累積功績：記錄成果，別忙得像無頭蒼蠅學會這三招，比只靠專業更能存活！

2025/10/22

2025/10/22

《打造你的 AI 分身：語氣 × 習慣 × 專業 × 決策邏輯全面同步》

《打造你的 AI 分身：語氣 × 習慣 × 專業 × 決策邏輯全面同步》 🏷️ 使用情境：想讓 AI 懂你的語氣和觀點，幫你寫出風格一致的內容想訓練一個能「替你思考」的虛擬助理或工作夥伴想把自己的工作 SOP、偏好、價值觀轉成可複製的 AI 指令模板 🔧 架構總覽： 1️⃣

#智慧#成長#力量

2025/08/03

牧牧的成長實驗室

《打造你的 AI 分身：語氣 × 習慣 × 專業 × 決策邏輯全面同步》

#智慧#成長#力量

2025/08/03

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11