【L21101】自然語言處理技術與應用｜Word Embedding、RNN、Transformer、BERT/GPT

2026/04/01 更新2025/10/16 發佈閱讀 15 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某法律科技公司建立合約風險分析系統，需將合約文本中的詞語轉換為向量表示，以便後續進行語義相似度比對。資料科學家比較了 One-Hot Encoding 與 Word2Vec 兩種方案，最終選擇 Word2Vec。下列何者最能說明 Word2Vec 詞嵌入在捕捉語義關係上的根本優勢？

(A) Word2Vec 為每個詞語生成固定長度的稀疏二進位向量，確保不同詞語在向量空間中的表示完全不重疊且計算效率高

(B) Word2Vec 透過上下文共現學習將詞語映射至稠密向量空間，使語義相近的詞語在空間中距離相近並支援向量類比運算

(D) Word2Vec 透過規則型詞典將同義詞映射至相同向量，確保「合約」與「契約」在任何語料庫中都能獲得完全一致的向量值

答案：B

深度導讀解析

正確答案：B

核心技術點：Word2Vec 稠密向量的語義幾何特性與 One-Hot Encoding 的根本差異

中級理論拆解：One-Hot Encoding 的每個詞對應一個只有一個位置為 1、其餘全為 0 的稀疏向量，詞彙表有 10 萬個詞就產生 10 萬維的向量，且任意兩個詞的餘弦相似度都是 0——向量空間裡每個詞都等距，毫無語義資訊。Word2Vec 透過訓練神經網路預測上下文（CBOW 或 Skip-gram），讓語義相近的詞在低維稠密向量空間中距離相近。最著名的特性是向量類比：$\vec{king} - \vec{man} + \vec{woman} \approx \vec{queen}$，這代表向量空間捕捉到了「性別」這個語義維度，是 One-Hot 完全做不到的事。

選項坑洞掃描：A 描述的是 One-Hot Encoding 的特性，不是 Word2Vec 的優勢，且 One-Hot 是稀疏向量而非稠密向量。C 把 TF-IDF 的邏輯混進來，Word2Vec 的向量維度是超參數固定的，不依賴詞頻動態調整。D 說透過規則型詞典映射同義詞，這是手工同義詞替換的做法，Word2Vec 是從語料庫自動學習，兩者機制完全不同。

破題反射字：語義相近距離相近 → 稠密向量空間／向量類比運算 → Word2Vec 的語義幾何特性／ One-Hot 無語義 → 等距稀疏向量

第 2 題

某醫療機構建立電子病歷摘要系統，需要從平均長度 800 字的病程紀錄中自動生成 50 字摘要。初期採用傳統 RNN 架構，但測試發現當輸入超過 200 字後，摘要中對病程早期症狀的描述明顯遺漏，且模型訓練時常出現梯度數值異常。資深工程師判斷這是 RNN 的結構性限制所致。下列何者最能解釋此現象的根本技術原因？

(A) 傳統 RNN 的隱藏層節點數量不足，導致模型容量無法儲存 800 字病程紀錄的完整語義資訊，應增加隱藏層節點數

(B) 傳統 RNN 在反向傳播時梯度需逐時間步連乘，長序列下梯度指數級衰減或爆炸，導致早期時間步的資訊無法有效傳遞至輸出層

(D) 傳統 RNN 只能處理固定長度的輸入序列，當病程紀錄超過預設長度限制時，超出部分會被截斷而導致資訊遺失

答案：B

深度導讀解析

正確答案：B

核心技術點：RNN 梯度消失/爆炸的數學機制與長期依賴問題

中級理論拆解：RNN 在反向傳播時，梯度需要沿時間步方向逆向傳遞，計算過程涉及對激活函數導數與權重矩陣的連續相乘。當序列長度為 $T$，梯度正比於 $\prod_{t=1}^{T} \frac{\partial h_t}{\partial h_{t-1}}$。若每個時間步的梯度倍率小於 1，連乘後指數級趨近於零（梯度消失）；若大於 1，則指數級爆炸。800 字的病程紀錄對應約 800 個時間步，第 1 個時間步的梯度在傳回輸出時幾乎歸零，模型根本學不到早期症狀與最終診斷的關聯。LSTM 透過遺忘門、輸入門、輸出門的設計，讓梯度有捷徑路徑傳遞，緩解此問題。

選項坑洞掃描：A 說節點數不足是容量問題，增加節點數不能解決梯度在時間步間傳遞衰減的根本問題，節點數影響的是每個時間步的表達能力，不是跨時間步的記憶能力。C 說缺乏注意力機制確實是 RNN 的限制，但這是對 Transformer 優勢的描述，不是導致「梯度數值異常」的原因，題目兩個現象（摘要遺漏＋梯度異常）都指向梯度問題。D 說 RNN 只能處理固定長度，這是錯的，RNN 天然支援可變長度序列輸入。

破題反射字：長序列資訊遺漏 → 梯度消失／梯度數值異常 → 梯度爆炸／ LSTM → 解決長期依賴的方案

第 3 題

某跨國企業導入即時多語言翻譯系統，技術團隊比較了 Seq2Seq + LSTM 與 Transformer 兩種架構。Transformer 在翻譯品質與訓練速度上均大幅領先，但工程師發現 Transformer 若不加入額外處理，會完全忽略詞語在句子中的位置順序。下列何者最正確描述 Transformer 無法感知詞序的根本原因，以及標準的解決方案？

(A) Transformer 的自注意力機制將每個詞語與序列中所有詞語同時計算相似度，此並行運算本質上不保留輸入順序，需透過位置編碼（Positional Encoding）將位置資訊加入詞嵌入向量

(B) Transformer 採用遞迴結構逐步處理輸入序列，但隱藏狀態的壓縮導致位置資訊逐漸稀釋，需在每個時間步重新注入位置向量以維持順序感知能力

(D) Transformer 使用卷積操作提取局部特徵，卷積核的感受野大小決定了模型能感知的最大詞語間距，位置編碼用於擴展感受野至全句範圍

答案：A

深度導讀解析

正確答案：A

核心技術點：Self-Attention 的無序性與 Positional Encoding 的設計動機

中級理論拆解：Self-Attention 的計算是 $\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$。在這個公式裡，每個詞語的 Query 向量同時和所有詞語的 Key 向量做點積，計算結果只取決於向量內容，和詞語在序列中的位置完全無關——把整個句子的詞序打亂，Attention 權重矩陣不會有任何變化。這是並行計算帶來的副作用。解決方式是在詞嵌入向量加入位置編碼，原始 Transformer 使用正弦/餘弦函數生成位置向量：$PE_{(pos,2i)} = \sin(pos/10000^{2i/d})$，讓每個位置獲得獨特的編碼，讓模型能從向量值中推算相對位置。

選項坑洞掃描：B 描述的是 RNN 的遞迴結構，Transformer 完全沒有遞迴，是並行處理，這是 B 的根本錯誤。C 說多頭注意力的跨頭資訊融合導致位置干擾，多頭注意力的設計是讓不同頭學習不同的關係模式，不存在位置資訊互相干擾的問題。D 說 Transformer 使用卷積操作，Transformer 的核心是 Self-Attention 而非卷積，Feed-Forward 層是全連接而非卷積。

破題反射字：Self-Attention 無序 → 並行計算不保留位置／ Positional Encoding → 位置資訊注入詞嵌入／正弦餘弦函數 → 原始 Transformer 的位置編碼

第 4 題

某銀行導入 AI 輔助審核系統，需同時處理兩項任務：一是理解客戶申請書中複雜條件句的語義（如「若擔保品價值低於貸款餘額 120%，且借款人信用評分低於 650 分，則…」）；二是根據審核結果自動生成標準化拒件通知書。資深 AI 規劃師評估後決定採用混合架構。下列何者最能正確說明 BERT 與 GPT 各自適合承擔哪項任務及其技術原因？

(A) BERT 適合生成拒件通知書，因其雙向編碼器能同時參考上下文生成語意連貫的長篇文本；GPT 適合語義理解，因其單向解碼器對條件句的邏輯結構更敏感

(B) BERT 適合理解申請書語義，因其透過 Masked Language Model 預訓練學習雙向上下文表示，對複雜條件句的語義捕捉能力優於單向模型；GPT 適合生成通知書，因其自迴歸解碼器天然支援流暢的序列文本生成

(D) 兩項任務均適合使用 GPT-4 等大型生成模型，BERT 已被淘汰且無法在金融領域的複雜語義理解任務中達到實用水準

答案：B

深度導讀解析

正確答案：B

核心技術點：BERT 雙向編碼器與 GPT 自迴歸解碼器的架構差異及適用任務類型

中級理論拆解：BERT 基於 Transformer 的編碼器（Encoder-only），預訓練任務是 Masked Language Model（MLM）——隨機遮蔽 15% 的詞語，要求模型從左右兩側的上下文同時推算被遮蔽的詞，因此學到的是雙向語義表示。這讓 BERT 在需要「理解整句語義」的任務（分類、問答、NER）上表現突出。GPT 基於 Transformer 的解碼器（Decoder-only），預訓練任務是自迴歸語言模型——從左到右逐詞預測下一個詞，這個序列生成機制天然適合文本生成任務。本題的語義理解 → BERT，文本生成 → GPT，是兩者最典型的適用分野。

選項坑洞掃描：A 把兩者功能完全對調，BERT 的雙向架構並不適合文本生成——它沒有自迴歸解碼機制，強行生成文本效果極差。C 說 BERT 同時具備理解與生成能力，這是誤解，BERT 的 MLM 是填空任務不是序列生成，用 BERT 直接生成流暢長文本是不切實際的。D 說 BERT 已被淘汰，這不符合現況，BERT 系列模型在語義理解、分類、NER 等任務上依然是業界主流選擇。

破題反射字：雙向上下文 → BERT / MLM 預訓練／自迴歸生成 → GPT / Decoder-only ／理解任務 vs 生成任務 → BERT vs GPT 的核心分野

第 5 題

某電商平台為旗下大型語言模型（LLM）客服助理設計提示詞（Prompt）策略。初期直接使用模糊指令「幫我處理客訴」，模型回覆格式不一致且常出現不符合品牌語氣的用詞。資深 AI 規劃師決定導入結構化提示工程（Prompt Engineering）進行改善。下列何者最正確描述提示工程的核心價值及其與模型微調（Fine-tuning）的關鍵差異？

(A) 提示工程透過重新設計模型的損失函數與訓練目標，在不更動模型權重的前提下，永久改變模型對特定任務類型的處理偏好與輸出風格

(B) 提示工程透過精心設計輸入指令的角色設定、任務描述、輸出格式與少樣本範例，在推論階段引導模型產出符合需求的結果，無需更動模型權重；微調則透過標註資料更新模型參數，效果更穩定但成本更高

(D) 提示工程是微調的前置步驟，必須先完成提示設計確認任務需求，再透過微調將提示詞的語義固化至模型權重中，才能在生產環境穩定部署

答案：B

深度導讀解析

正確答案：B

核心技術點：提示工程的運作層次與微調的本質差異，以及兩者的適用場景判斷

中級理論拆解：提示工程完全在推論階段運作，不更動任何模型參數。透過設計角色設定（「你是一位語氣親切的客服專員」）、任務描述（「請根據以下客訴內容回覆，控制在 100 字以內」）、輸出格式（「以 JSON 格式輸出，包含 status 和 reply 兩個欄位」）、少樣本範例（Few-shot Prompting），可以在不同部署場景中靈活調整模型行為，成本幾乎為零。微調則透過有標註的任務資料對模型參數進行梯度更新，效果更穩定、更能適應特定領域詞彙，但需要資料標註成本與運算資源。兩者不是替代關係，而是成本與效果的權衡選擇。

選項坑洞掃描：A 說提示工程重新設計損失函數，這完全是微調或訓練的概念，提示工程完全不碰模型權重，更不涉及損失函數。C 說兩者功能完全相同只是表達方式不同，這是嚴重誤解——微調更新模型參數、效果更持久穩定；提示工程只改輸入、靈活但效果受模型本身能力限制，兩者影響程度差異顯著。D 說提示工程是微調的必要前置步驟，這不符合實際流程，兩者可以獨立使用，提示工程不是微調的先決條件。

破題反射字：不更動模型權重 → 提示工程／ Few-shot Prompting → 少樣本範例引導／更新模型參數 → 微調（Fine-tuning）

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

含 AI 應用內容

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

373會員

99內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

生之道 ShengZhiDao

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

這篇文章討論了自然語言處理技術的發展歷程，從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足，並提出了自然語言處理領域的倫理使用和版權問題，以及對大眾的影響。最後，作者探討了個人在自然語言領域的發展可能性。

#語言#資訊#模型

2024/06/05

生之道 ShengZhiDao

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

#語言#資訊#模型

2024/06/05

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

易樂的沙龍

創意與靈感來源

本篇文章分享了對創意和靈感來源的深入思考，以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法，提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用，以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。

2024/05/05

2024/05/05

語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術，並提供了實際的應用參考點，幫助讀者深入理解自然語言處理的技術。

2024/04/17

2024/04/17

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

這篇文章介紹瞭如何利用生成式AI（GenAI）來提高學習效率，包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度，保持學術誠信，適當運用GenAI能大幅提升工作效率。

#學習#生成式AI#文章

2024/03/24

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

#學習#生成式AI#文章

2024/03/24

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11