👑 NLP 核心處理流程:從文本到生成
原始文本 → 1. 前處理(分詞/清理) → 2. 文字向量化(Embedding) → 3. 模型訓練/推論(Transformer 等) → 4. 輸出(NLU 理解意圖 / NLG 生成文本)
🎯 NLP 技術演進與痛點解決
- 規則式 (Rule-based):靠專家寫規則。
優點:可解釋性高。
缺點:沒彈性、維護成本極高。 - 統計模型 (Statistical):導入機率(如 N-gram、HMM)。開始有自動化能力,但無法理解深層語意。
- 深度學習 (Deep Learning):RNN / LSTM 登場!
優點:解決序列與時間依賴問題。
缺點:循序計算超慢,太長的句子還是會忘記(梯度消失)。 - 預訓練模型 (Pre-trained LM):Transformer 出現!
重點:透過自注意力機制 (Self-Attention) 一次看見全局,解決了長距離依賴,還能全平行運算 (Fully Parallel),訓練速度大提升!
🥊 NLP 核心模型比較
模型 | 運作核心 | 優點 | 缺點 |
RNN | 循序單向傳遞 (逐字讀) | 具備基礎的時間序列處理能力 | 梯度消失 (長文會失憶)、無法平行運算 |
LSTM | 導入門控機制與記憶細胞 | 緩解梯度消失,穩抓長距離語意 | 結構變複雜導致運算更耗時、仍無法平行處理 |
Transformer | 全平行架構 + 自注意力機制 | 一次看見全局,訓練速度與效能大飆升 | 參數龐大,需極高算力與記憶體資源 |
🛠️ 資料前處理二大利器
前處理是 NLP 的地基,機器只看懂數字,所以要把文字整理乾淨。
- 詞幹提取 (Stemming): 暴力砍掉字尾(如 connections → connect),速度快,但可能產出不存在的單字,適合大規模快速檢索。
- 詞形還原 (Lemmatization): 依賴字典與語法規則(如 running → run),保留真實語意,計算成本高,適合精細的語意分析。
💡 觀念釐清:停用詞(Stopwords)如 "is",在任何情況下都應該被刪除嗎?
解答:在文字分類或主題建模(如 TF-IDF 應用)時刪除 "the"、"is" 可以降維。但在對話生成或語法分析任務中,過度刪除停用詞會破壞句子的流暢度與完整語境。
🧮 文字向量化 (Embedding) 的進化
機器懂了單字,接下來要轉成數字(向量)。
- One-hot Encoding:一個詞一個維度。
缺點:維度災難(向量超稀疏),且詞與詞之間毫無關聯。 - TF-IDF:統計詞頻。
強項:抓出文章專屬的「關鍵詞」(常見詞權重低,罕見詞權重高)。
弱點:忽略語序。 - 靜態分布式 (Word2Vec / FastText):開始有語意關聯(國王 - 男人 + 女人 = 女王)。
● Word2Vec 的兩種架構:CBOW vs. Skip-gram
CBOW:用「周圍上下文」預測「中心詞」。訓練快,適合小語料。
Skip-gram:用「中心詞」預測「周圍上下文」。對低頻詞效果好,語意捕捉更細膩。
● FastText:拆解子詞,能處理沒看過的新詞 (OOV)。 - 動態語境式 (BERT / GPT): 能解決「多義詞(同詞異義)」問題!
傳統 Word2Vec 裡,銀行的 bank 跟河岸的 bank 向量長一樣;但 BERT 可以根據上下文給出不同的向量,解決多義詞問題。
🤖 預訓練模型雙星與微調神器
雙星對決:BERT vs. GPT
- BERT:雙向理解(Encoder),擅長自然語言理解(NLU)。應用:分類、問答、NER(命名實體辨識)。
- GPT:單向自迴歸(Decoder),擅長自然語言生成(NLG)。應用:對話生成、續寫、摘要。
LLM 落地必備「外掛」技術
- RAG (檢索增強生成):解決模型亂講話!先去外部知識庫找答案,再丟給 LLM 整理生成。
- LoRA (低秩自適應):低預算首選!不用重新訓練龐大模型,只微調少量參數就能適應新任務,CP 值極高。
- Few-shot / Zero-shot prompting(少樣本/零樣本提示):透過在提示詞中提供少量或不提供範例,引導大語言模型完成任務,而不需重新訓練模型。
⚠️ AI 應用風險與治理
💣 易混淆一:模型幻覺 (Hallucination) vs. 模型偏見 (Bias)
- 模型幻覺:模型「一本正經地胡說八道」,產出文法正確但捏造的不實資訊(例如:回答你屈原是 2024 年奧運舉重冠軍)。
解法:導入 RAG 事實查核。 - 模型偏見:模型反映了人類訓練資料中的歧視或刻板印象(例如:履歷篩選系統認為「男性」比較適合當主管)。
解法:平衡訓練資料、使用 WEAT 等工具檢測。
💣 易混淆二:去識別化 (De-identification) vs. 匿名化 (Anonymization)
- 去識別化:包含代碼替換(如 phone_XXYYZZ)、資料遮罩(Masking)、一般化(如精確生日改為出生年份)。
重點:保留了資料的分析價值,且「有機會還原(可逆)」,適合企業內部系統測試與分析。 - 匿名化:徹底刪除或隨機化特徵。
重點:「絕對無法追溯特定個人(不可逆)」,用於開放資料或高風險環境。
透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容參考 iPAS 官方學習指引,由 AI 整理產製















