Day1:監督式學習+文本分類

更新 發佈閱讀 5 分鐘

今天的人工智慧 1+1 自學:監督式學習 (Supervised Learning) 與文本分類 (Text Classification)

「1」 - 技術核心層
機器學習/ML (Machine Learning) 3類型之一(監督式學習/非監督式學習/強化學習)——「監督式學習 (Supervised Learning)」

「1」 - 感知互動層
自然語言處理/NLP (Natural Language Processing)的一項基礎且重要應用——「文本分類 (Text Classification)」

*「監督式學習」+「文本分類」的組合是 NLP 領域中最經典且最直觀的應用案例。

1. 監督式學習 (⇢ 機器學習/ML ⇢ 技術核心層)

▶︎ 說明:監督式學習是機器學習中最常見的類型。
▶︎ 訓練方式:
提供大量的「輸入-標籤」配對數據,訓練模型從中學習(i.e.歸納並記憶)「(輸入與輸出之間)映射關係」或「底層邏輯」。讓模型透過這些範例進行訓練,直至可獨立判斷,並為「未見過的」輸入數據,分配正確的標籤。

▶︎ 監督式訓練過程:
(1)資料準備: 準備一個大型的「已標註」資料集**(重要標註)
(2)前向傳播 (Forward Pass): 模型接收一個輸入資料點,並根據模型已具備之內部邏輯做出預測。
(3)計算誤差 (Loss Calculation): 軟體會將模型的預測,與資料集中的正確答案(標籤)進行對比,並計算出兩者之間的誤差 (Loss)。這個步驟正是「監督式學習」的「監督/ Supervise」的實質意涵。
(4)反向傳播 (Backward Pass):模型會使用「梯度下降」演算法(i.e.找到誤差最小化的方向以不斷微調模型參數)找出誤差值,並將誤差值回傳,同時計算出應該如何調整其內部參數,以期在下一次做出更精確的預測。這是學習最關鍵的環節。
(5)參數更新 (Parameter Update):模型根據計算出來的調整建議,更新其內部參數。
(6)反覆循環:透過(2)-(5)的步驟,模型會對整個「訓練集」**(重要標註) 中的所有數據點,反覆執行直到誤差降到足夠低為止。

**重要標註說明:關於「資料集」/「訓練集」
說明:
一個標準的機器學習流程,會在訓練開始前將整個「資料集」按一定比例(ex 80/10/10 或 70/15/15)劃分為三個獨立的部分:
▪︎ 訓練集 (Training Set):用於模型的實際學習。
▪︎ 驗證集 (Validation Set):用於在訓練過程中調整模型參數,同時也讓開發者可用以評估模型是否發生「過度擬合 (Overfitting)」。
▪︎ 測試集 (Test Set):是「未見過的」的數據,是在訓練結束後,用來在測試驗收成果時,對模型表現提供最終且客觀的衡量標準。從訓練開始到結束,也就是在(2)-(6)的訓練過程,模型都不會在任何階段接觸到數據集。
測試不屬於訓練的一環。不同於在訓練過程後期,開發者以驗證集檢視評估模型的訓練狀態,視需求做進一步的調校修正,測試是在訓練完整結束後進行。


2. 文本分類 (⇢ 自然語言處理/NLP ⇢ 感知互動層)

▶︎ 說明:
文本分類是將文字內容歸類(i.e.歸納)到預設類別的任務。藉由監督式學習,能讓模型獲得完成這種任務的能力。
已實現應用場景如:
▪︎ 電子郵件/垃圾郵件過濾:將郵件分為「垃圾郵件」或「非垃圾郵件」。
▪︎ 目標受眾情緒分析:將客戶評論分為「正面」、「負面」或「中性」。
▪︎ 網站內容屬性分類:將文章分為「體育」、「財經」、「娛樂」等類別。

▶︎ 於 AI的感知互動層應用:透過提示工程 Prompt Engineering 在 LLM 實現文本分類。
(a) 概念說明
因為 LLM可以只憑Prompt 本身的「上下文資訊」來學習和適應 Prompt 所下達的新的指令,所以,應用Prompt Engineering 中的「少樣本學習 (Few-shot Learning)」,即可實現文本分類,意即:不需重新訓練整個模型,只要提供少量範例,即可指導模型完成任務(i.e.實現文本分類)。
(b) 運作流程
(1)在 Prompt模板中提供 LLM 少數「輸入-標籤」範例
(2)讓 LLM 立即從中學習模式
(3)提供一個未標記的輸入,要求 LLM 進行分類
(4) LLM 完成分類任務後生成內容反饋

留言
avatar-img
不是雞湯,但是又如何
4會員
513內容數
不是雞湯,但 是又如何 不是雞湯,但是 又如何
2025/08/16
今天與Gemini review 我在 Prompt Engineering 的學習,我其實感覺可以嘗試更全面的返回人工智慧領域學習,站在已有的 Prompting 學習基礎上。於是有了今天 Day 0 的從頭學習。 加油!我可以的:) - 「人工智慧 1+1」學習旅程 Day 0 人工
2025/08/16
今天與Gemini review 我在 Prompt Engineering 的學習,我其實感覺可以嘗試更全面的返回人工智慧領域學習,站在已有的 Prompting 學習基礎上。於是有了今天 Day 0 的從頭學習。 加油!我可以的:) - 「人工智慧 1+1」學習旅程 Day 0 人工
2025/07/18
# random,隨機。先學四種款基本方法。 # (1)取隨機的整數 .randint() import random # 先設置導入random模組 print(random.randint(1, 10)) # 使用.randint(1, 10),隨機印出1-10之間的整數 #
2025/07/18
# random,隨機。先學四種款基本方法。 # (1)取隨機的整數 .randint() import random # 先設置導入random模組 print(random.randint(1, 10)) # 使用.randint(1, 10),隨機印出1-10之間的整數 #
2025/07/16
Dictionary,字典,由key value組成,鍵值對 # 符號使用大括號 {} # 每個項目都是一個「鍵值對 (Key-Value Pair)」,是字典最基本的單位 # 用冒號「:」連接鍵和值,不同的鍵值對之間用逗號「,」分隔 # 特性1:鍵唯一(Unique Keys),鍵必須是獨一個,不
2025/07/16
Dictionary,字典,由key value組成,鍵值對 # 符號使用大括號 {} # 每個項目都是一個「鍵值對 (Key-Value Pair)」,是字典最基本的單位 # 用冒號「:」連接鍵和值,不同的鍵值對之間用逗號「,」分隔 # 特性1:鍵唯一(Unique Keys),鍵必須是獨一個,不
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經完成: Single-Head Attention 數學說明:AI說書 - 從0開始 - 52 Multi-Head Attention 數學說明:AI
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News