自動監控、訓練結束後發送通知 Line的簡單腳本

更新 發佈閱讀 7 分鐘

這是一個非常實用的功能。在兩張 RTX 5090 上進行長達十幾小時的訓練時,你不需要一直盯著螢幕。我們可以利用 Line Notify(最簡單的 API)來實現這個功能。

第一步:取得 Line Notify Token

  1. 前往 Line Notify 官方網站 並登入。
  2. 進入「個人頁面」,點擊「發行權杖 (Generate token)」。
  3. 選擇要接收通知的聊天室(例如「透過 1 對 1 聊天接收 LINE Notify 通知」)。
  4. 複製產生的 Token(這串代碼只會出現一次)。

第二步:編寫 Python 通知腳本 (notifier.py)

這個腳本可以被整合進你的訓練迴圈,或是單獨作為訓練結束後的呼叫工具。

</>Python
import requests

def send_line_notification(message, token):
url = "https://notify-api.line.me/api/notify"
headers = {
"Authorization": f"Bearer {token}",
"Content-Type": "application/x-www-form-urlencoded"
}
payload = {"message": message}
try:
response = requests.post(url, headers=headers, data=payload)
if response.status_code == 200:
print("Line 通知發送成功!")
else:
print(f"發送失敗,錯誤碼:{response.status_code}")
except Exception as e:
print(f"連線錯誤: {e}")

# 測試用
# YOUR_TOKEN = "貼上你的Token"
# send_line_notification("\n🚀 5090 預訓練任務已啟動!", YOUR_TOKEN)

第三步:整合進你的 train.py (最推薦做法)

在你的 PyTorch 訓練腳本結尾加入 try...finally 結構,這樣無論是訓練成功還是因為報錯崩潰,你都會收到通知:

</>Python
from notifier import send_line_notification

LINE_TOKEN = "你的_LINE_TOKEN"

try:
print("開始訓練...")
# 這裡放你的 trainer.train() 指令
trainer.train()

# 訓練成功通知
msg = "\n✅ 訓練完成!\n模型已儲存至 output 目錄。\n快回來看 5090 的戰果!"
send_line_notification(msg, LINE_TOKEN)

except Exception as e:
# 訓練崩潰通知
msg = f"\n❌ 訓練中斷!\n錯誤訊息: {str(e)[:100]}"
send_line_notification(msg, LINE_TOKEN)

finally:
# 也可以在這裡加入清理顯存的指令
import torch
torch.cuda.empty_cache()

第四步:進階監控(監控 Loss 與 顯存)

如果你想在訓練過程中每隔幾小時回報一次進度(例如當前的 Loss 和 GPU 溫度),可以利用 transformersTrainerCallback

</>Python
from transformers import TrainerCallback

class LineNotificationCallback(TrainerCallback):
def on_log(self, args, state, control, logs=None, **kwargs):
# 每 500 個 step 發送一次當前 Loss
if state.global_step % 500 == 0 and state.global_step > 0:
loss = logs.get("loss", "N/A")
msg = f"\n📊 訓練進度報告\nStep: {state.global_step}\nLoss: {loss:.4f}"
send_line_notification(msg, LINE_TOKEN)

# 在 Trainer 中加入 callback
# trainer = Trainer(..., callbacks=[LineNotificationCallback()])

💡 給 5090 使用者的最後備註:

  1. 網路環境: 確保你的訓練主機能連上外部網路(有些公司伺服器會擋 API)。
  2. 安全提示: 不要把 Token 直接上傳到 GitHub 公開倉庫,建議使用環境變數讀取。
  3. Blackwell 效率: 隨著訓練進行,你會發現 5090 的顯存溫度(VRAM Temp)可能比核心溫度高,這是 GDDR7 的特性。如果收到 Loss 異常的通知,建議先遠端連線回去看一眼 nvidia-smi

萬事俱備! 你的 2x 5090 訓練環境現在已經具備了自動化、效能優化、容錯機制以及遠端監控

準備好按下 ./deepspeed_launcher.sh 那個鍵!


留言
avatar-img
sirius數字沙龍
16會員
413內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/06
在處理結構化數據(如大量的 JSON 或代碼)時,由於數據中存在高度重複的模式,模型有時會遇到極端不穩定的梯度,導致訓練突然崩潰(Loss 變成 NaN)。 在兩張 RTX 5090 上跑全參數微調時,設置*梯度裁剪(Gradient Clipping)*就像是給引擎裝上「轉速限制器」。
Thumbnail
2026/03/06
在處理結構化數據(如大量的 JSON 或代碼)時,由於數據中存在高度重複的模式,模型有時會遇到極端不穩定的梯度,導致訓練突然崩潰(Loss 變成 NaN)。 在兩張 RTX 5090 上跑全參數微調時,設置*梯度裁剪(Gradient Clipping)*就像是給引擎裝上「轉速限制器」。
Thumbnail
2026/03/06
寫一個簡單的 Python 評測腳本, 它可以自動讀取您的結構化數據樣本,並檢查模型輸出的 JSON 或代碼是否符合語法規則(Syntax Check)。這比單看 Loss 更能反應微調的效果。 既然是處理結構化數據(如 API、代碼或 JSON),測試「Loss 是否下降」只是第一步。
Thumbnail
2026/03/06
寫一個簡單的 Python 評測腳本, 它可以自動讀取您的結構化數據樣本,並檢查模型輸出的 JSON 或代碼是否符合語法規則(Syntax Check)。這比單看 Loss 更能反應微調的效果。 既然是處理結構化數據(如 API、代碼或 JSON),測試「Loss 是否下降」只是第一步。
Thumbnail
2026/03/06
對於巨大的 .txt 檔案(內含結構化數據,如 API 文件、JSON 塊或代碼),不可直接按行讀取或是按字數切斷。如果一個結構化的「邏輯塊」(例如一整段 JSON或函數)被從中切開,模型就無法學會完整的邏輯。 在兩張 RTX 5090 上,為了極大化訓練效率,我們需要使用Data Packing。
Thumbnail
2026/03/06
對於巨大的 .txt 檔案(內含結構化數據,如 API 文件、JSON 塊或代碼),不可直接按行讀取或是按字數切斷。如果一個結構化的「邏輯塊」(例如一整段 JSON或函數)被從中切開,模型就無法學會完整的邏輯。 在兩張 RTX 5090 上,為了極大化訓練效率,我們需要使用Data Packing。
Thumbnail
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
在數位資訊爆炸的 2026 年,我們最稀缺的資源早已不是資訊,而是「注意力」。尤其對於生活在高雄三多商圈、亞灣區等核心地標周邊的高壓族群來說,大腦整日處於多工處理狀態,若連運動時都必須忍受擁擠的環境與嘈雜的人聲,訓練的成效將大打折扣。位於林森三路的 Moon's Kaohsiung,透過「全預約制」
Thumbnail
在數位資訊爆炸的 2026 年,我們最稀缺的資源早已不是資訊,而是「注意力」。尤其對於生活在高雄三多商圈、亞灣區等核心地標周邊的高壓族群來說,大腦整日處於多工處理狀態,若連運動時都必須忍受擁擠的環境與嘈雜的人聲,訓練的成效將大打折扣。位於林森三路的 Moon's Kaohsiung,透過「全預約制」
Thumbnail
這篇文章探討了火星探索對宇航員健康的挑戰及其對醫學的影響。隨著太空醫學的快速發展,創新技術如遠程醫療和自我診斷工具不僅有助於宇航員在極端環境中生存,也為地球上的醫療服務帶來了改善。文章還強調了微重力環境下的研究如何促進新療法的發展,並展望了未來太空探索如何改變人類健康管理方式。
Thumbnail
這篇文章探討了火星探索對宇航員健康的挑戰及其對醫學的影響。隨著太空醫學的快速發展,創新技術如遠程醫療和自我診斷工具不僅有助於宇航員在極端環境中生存,也為地球上的醫療服務帶來了改善。文章還強調了微重力環境下的研究如何促進新療法的發展,並展望了未來太空探索如何改變人類健康管理方式。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
EQT 與人型機器人新創 1X 達成策略合作,規劃 2026–2030 年間,讓旗下投資組合公司「最多」可導入 1 萬台人型機器人,應用於物流、製造與醫療等場景。這不是已簽好的大單,而是促成導入的合作框架。真正關鍵,會在 2026 年後實際部署與商轉成效。
Thumbnail
EQT 與人型機器人新創 1X 達成策略合作,規劃 2026–2030 年間,讓旗下投資組合公司「最多」可導入 1 萬台人型機器人,應用於物流、製造與醫療等場景。這不是已簽好的大單,而是促成導入的合作框架。真正關鍵,會在 2026 年後實際部署與商轉成效。
Thumbnail
因為視覺的不便,走在路上時,我必須倚靠全方位的身體感知與環境線索來即時判斷方向與安全,才能順利抵達目的地。這些感知包括聽覺、白手杖傳遞的觸覺、空間感、嗅覺與風向等。同時,我還必須解讀環境資訊,例如紅綠燈音響號誌、導盲磚、地勢起伏、人行道、車輛駕駛的友善程度等。
Thumbnail
因為視覺的不便,走在路上時,我必須倚靠全方位的身體感知與環境線索來即時判斷方向與安全,才能順利抵達目的地。這些感知包括聽覺、白手杖傳遞的觸覺、空間感、嗅覺與風向等。同時,我還必須解讀環境資訊,例如紅綠燈音響號誌、導盲磚、地勢起伏、人行道、車輛駕駛的友善程度等。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News