📚 iPAS AI 應用規劃師(中級):快速重點整理 - 科目一 - L21101 自然語言處理技術與應用

cici-avatar-img
發佈於AI
更新 發佈閱讀 6 分鐘

👑 NLP 核心處理流程:從文本到生成

原始文本 → 1. 前處理(分詞/清理) → 2. 文字向量化(Embedding) → 3. 模型訓練/推論(Transformer 等) → 4. 輸出(NLU 理解意圖 / NLG 生成文本)

🎯 NLP 技術演進與痛點解決

  1. 規則式 (Rule-based):靠專家寫規則。
    優點:可解釋性高。
    缺點:沒彈性、維護成本極高。
  2. 統計模型 (Statistical):導入機率(如 N-gram、HMM)。開始有自動化能力,但無法理解深層語意
  3. 深度學習 (Deep Learning):RNN / LSTM 登場!
    優點:解決序列與時間依賴問題。
    缺點:循序計算超慢,太長的句子還是會忘記(梯度消失)。
  4. 預訓練模型 (Pre-trained LM):Transformer 出現!
    重點:透過自注意力機制 (Self-Attention) 一次看見全局,解決了長距離依賴,還能全平行運算 (Fully Parallel),訓練速度大提升!

🥊 NLP 核心模型比較

模型

運作核心

優點

缺點

RNN

循序單向傳遞 (逐字讀)

具備基礎的時間序列處理能力

梯度消失 (長文會失憶)、無法平行運算

LSTM

導入門控機制記憶細胞

緩解梯度消失,穩抓長距離語意

結構變複雜導致運算更耗時仍無法平行處理

Transformer

全平行架構 + 自注意力機制

一次看見全局,訓練速度與效能大飆升

參數龐大,需極高算力與記憶體資源

🛠️ 資料前處理二大利器

前處理是 NLP 的地基,機器只看懂數字,所以要把文字整理乾淨。

  • 詞幹提取 (Stemming): 暴力砍掉字尾(如 connections → connect),速度快,但可能產出不存在的單字,適合大規模快速檢索。
  • 詞形還原 (Lemmatization): 依賴字典與語法規則(如 running → run),保留真實語意,計算成本高,適合精細的語意分析。

💡 觀念釐清:停用詞(Stopwords)如 "is",在任何情況下都應該被刪除嗎?
解答:在文字分類或主題建模(如 TF-IDF 應用)時刪除 "the"、"is" 可以降維。但在對話生成或語法分析任務中,過度刪除停用詞會破壞句子的流暢度與完整語境。

🧮 文字向量化 (Embedding) 的進化

機器懂了單字,接下來要轉成數字(向量)。

  1. One-hot Encoding:一個詞一個維度。
    缺點:維度災難(向量超稀疏),且詞與詞之間毫無關聯。
  2. TF-IDF:統計詞頻。
    強項:抓出文章專屬的「關鍵詞」(常見詞權重低,罕見詞權重高)。
    弱點:忽略語序。
  3. 靜態分布式 (Word2Vec / FastText):開始有語意關聯(國王 - 男人 + 女人 = 女王)。
    ● Word2Vec 的兩種架構:CBOW vs. Skip-gram
    CBOW:用「周圍上下文」預測「中心詞」。訓練快,適合小語料。
    Skip-gram:用「中心詞」預測「周圍上下文」。對低頻詞效果好,語意捕捉更細膩。
    ● FastText:拆解子詞,能處理沒看過的新詞 (OOV)。
  4. 動態語境式 (BERT / GPT): 能解決「多義詞(同詞異義)」問題!
    傳統 Word2Vec 裡,銀行的 bank 跟河岸的 bank 向量長一樣;但 BERT 可以根據上下文給出不同的向量,解決多義詞問題。

🤖 預訓練模型雙星與微調神器

雙星對決:BERT vs. GPT

  • BERT:雙向理解(Encoder),擅長自然語言理解(NLU)。應用:分類、問答、NER(命名實體辨識)。
  • GPT:單向自迴歸(Decoder),擅長自然語言生成(NLG)。應用:對話生成、續寫、摘要。

LLM 落地必備「外掛」技術

  • RAG (檢索增強生成):解決模型亂講話!先去外部知識庫找答案,再丟給 LLM 整理生成。
  • LoRA (低秩自適應):低預算首選!不用重新訓練龐大模型,只微調少量參數就能適應新任務,CP 值極高。
  • Few-shot / Zero-shot prompting(少樣本/零樣本提示):透過在提示詞中提供少量或不提供範例,引導大語言模型完成任務,而不需重新訓練模型。

⚠️ AI 應用風險與治理

💣 易混淆一:模型幻覺 (Hallucination) vs. 模型偏見 (Bias)

  • 模型幻覺:模型「一本正經地胡說八道」,產出文法正確但捏造的不實資訊(例如:回答你屈原是 2024 年奧運舉重冠軍)。
    解法:導入 RAG 事實查核。
  • 模型偏見:模型反映了人類訓練資料中的歧視或刻板印象(例如:履歷篩選系統認為「男性」比較適合當主管)。
    解法:平衡訓練資料、使用 WEAT 等工具檢測。

💣 易混淆二:去識別化 (De-identification) vs. 匿名化 (Anonymization)

  • 去識別化:包含代碼替換(如 phone_XXYYZZ)、資料遮罩(Masking)、一般化(如精確生日改為出生年份)。
    重點:保留了資料的分析價值,且「有機會還原(可逆)」,適合企業內部系統測試與分析。
  • 匿名化:徹底刪除或隨機化特徵。
    重點:「絕對無法追溯特定個人(不可逆)」,用於開放資料或高風險環境。


透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容參考 iPAS 官方學習指引,由 AI 整理產製

留言
avatar-img
喬西的數位跨域日常
0會員
26內容數
AI / 行銷 / 程式 / 設計 / 管理 / 閱讀
2026/05/14
🎯 觀念先決:任務體系判斷 先看「資料有沒有標籤(答案)」,再看「要預測什麼」。 監督式學習(有標準答案): 預測連續數字(如:房價、業績)→ 迴歸 (Regression) 預測離散類別(如:會/不會買、生病/健康) → 分類 (Classification) 非監督式學習(沒有標準答
Thumbnail
2026/05/14
🎯 觀念先決:任務體系判斷 先看「資料有沒有標籤(答案)」,再看「要預測什麼」。 監督式學習(有標準答案): 預測連續數字(如:房價、業績)→ 迴歸 (Regression) 預測離散類別(如:會/不會買、生病/健康) → 分類 (Classification) 非監督式學習(沒有標準答
Thumbnail
2026/05/14
🎯 重點一:機器學習三大門派 監督式學習 (Supervised Learning) 核心特徵: 有標籤(有標準答案)。 兩大任務: 1. 分類 (Classification): 預測離散類別(例如:是貓還是狗?是垃圾信嗎?) 2. 迴歸 (Regression): 預測連續數值(例如
Thumbnail
2026/05/14
🎯 重點一:機器學習三大門派 監督式學習 (Supervised Learning) 核心特徵: 有標籤(有標準答案)。 兩大任務: 1. 分類 (Classification): 預測離散類別(例如:是貓還是狗?是垃圾信嗎?) 2. 迴歸 (Regression): 預測連續數值(例如
Thumbnail
2026/05/13
🎯 重點一:最佳化問題的「三本柱」 要搞懂模型怎麼訓練,先掌握這三個專有名詞。 目標函數 (Objective Function) / 損失函數 (Loss Function): 白話文: 衡量「模型預測值」跟「標準答案」差多少的指標。誤差越小越好! 決策變數 (Decision Varia
Thumbnail
2026/05/13
🎯 重點一:最佳化問題的「三本柱」 要搞懂模型怎麼訓練,先掌握這三個專有名詞。 目標函數 (Objective Function) / 損失函數 (Loss Function): 白話文: 衡量「模型預測值」跟「標準答案」差多少的指標。誤差越小越好! 決策變數 (Decision Varia
Thumbnail
看更多
你可能也想看
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
沒有什麼所謂iPAS考試的乾貨,純粹就是個制動器。
Thumbnail
沒有什麼所謂iPAS考試的乾貨,純粹就是個制動器。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
嗨 我是CCChen 今天2026/04/10 iPAS官網新公告 【公告】iPAS能力鑑定全國考區安排說明 為協助考生了解各考區設置原則及座位安排方式,提供「iPAS能力鑑定全國考區安排說明」,內容包含考區範圍、考場規劃原則及報名注意事項等,請考生參閱附件。 更新日 2026-04/
Thumbnail
嗨 我是CCChen 今天2026/04/10 iPAS官網新公告 【公告】iPAS能力鑑定全國考區安排說明 為協助考生了解各考區設置原則及座位安排方式,提供「iPAS能力鑑定全國考區安排說明」,內容包含考區範圍、考場規劃原則及報名注意事項等,請考生參閱附件。 更新日 2026-04/
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
【獲證學長姐的考前陪伴分享會】是一場專為即將參加 iPAS 考試 的考生所設計的考前暖心陪跑活動。考前最後一晚,Vicky 邀請已經獲證的學長姐們,一起用真實經驗陪伴學弟妹穩定心情、熟悉考場、建立信心。 日期:2026/5/15 (五) 時間:晚上 7:30 開始 形式:線上分享會
Thumbnail
【獲證學長姐的考前陪伴分享會】是一場專為即將參加 iPAS 考試 的考生所設計的考前暖心陪跑活動。考前最後一晚,Vicky 邀請已經獲證的學長姐們,一起用真實經驗陪伴學弟妹穩定心情、熟悉考場、建立信心。 日期:2026/5/15 (五) 時間:晚上 7:30 開始 形式:線上分享會
Thumbnail
【📣 購買 CCChen 指定 iPAS 備考數位商品,即有機會抽訂單免費!】 公司成立了 AI 小組,求職平台上各種 AI 職缺佔據版面⋯⋯人人都在用 AI ,大小事都先問 AI 的今日,該怎麼證明自己具備系統化的 AI 知識與使用技巧,能將經驗與技術轉化為實際的競爭力?
Thumbnail
【📣 購買 CCChen 指定 iPAS 備考數位商品,即有機會抽訂單免費!】 公司成立了 AI 小組,求職平台上各種 AI 職缺佔據版面⋯⋯人人都在用 AI ,大小事都先問 AI 的今日,該怎麼證明自己具備系統化的 AI 知識與使用技巧,能將經驗與技術轉化為實際的競爭力?
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News