【L21101】自然語言處理技術與應用｜NLP 前處理、BoW、TF-IDF 模擬考題

2026/04/01 更新2025/10/15 發佈閱讀 12 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某電商平台建立客服自動化系統，需從「我的訂單 ORD-20240315-8821 的 iPhone 15 Pro 還沒到貨」這類非結構化留言中，自動萃取產品名稱與訂單編號，傳入後台系統查詢物流狀態。AI 規劃師評估後需選擇最適合的 NLP 技術。下列何者最能直接達成此目的？

(A) 情感分析（Sentiment Analysis），判斷留言的正負面情緒極性，協助客服團隊優先處理負評案件

(B) 命名實體識別（NER），從非結構化文本中自動識別並標記產品名稱、訂單編號等具有特定類別的關鍵實體

(D) 主題模型（Topic Modeling），從大量留言中歸納出潛在主題分布，協助分析客訴的常見問題類型

答案：B

深度導讀解析

正確答案：B

核心技術點：命名實體識別（NER）的功能定位與適用場景

中級理論拆解：NER 的核心任務是從非結構化文本中識別出具有特定語義類別的實體，常見類別包含人名（PER）、地名（LOC）、組織名（ORG）、產品名、日期、數字編號等。本題的需求是抽出「iPhone 15 Pro」（產品名）和「ORD-20240315-8821」（訂單編號）這兩個實體，再傳入後台查詢，這正是 NER 的核心用途。現代 NER 系統通常基於 BERT 等預訓練語言模型微調，能處理客服場景中多變的表達方式。

選項坑洞掃描：A 的情感分析只能告訴你客戶情緒是正面還是負面，無法萃取訂單編號或產品名稱。C 的文本摘要是壓縮長文為短文，不是從文本中抽取結構化欄位。D 的主題模型是無監督的文本分群工具，適合探索大量文本的潛在主題，不適合精確抽取特定實體。

破題反射字：萃取關鍵資訊 → NER ／產品名、訂單號、人名 → 命名實體／結構化輸出 → 實體識別後傳入後台

第 2 題

某科技公司建立 NLP 前處理管線，對英文技術文件進行分析。管線中需要將「running」、「runs」、「ran」統一還原為基本形式，以利後續詞頻統計與主題分析。資深工程師要求還原結果必須是具有實際字典意義的單字，且需考慮詞性以避免歧義。下列何者最符合此需求？

(A) 詞幹提取（Stemming），透過規則化去除詞綴快速將詞語縮短，處理速度快且能有效降低詞彙維度

(B) 詞形還原（Lemmatization），依據詞性與語境將詞語還原為字典原形，確保輸出結果具有明確語義

(D) 分詞（Tokenization），將連續文本切割為獨立的詞語單元，作為所有 NLP 前處理流程的第一步驟

答案：B

深度導讀解析

正確答案：B

核心技術點：Stemming 與 Lemmatization 的機制差異與適用場景選擇

中級理論拆解：Stemming 是規則型的詞綴截斷，例如 Porter Stemmer 會把「running」變成「run」，但也可能把「studies」變成「studi」——這不是真實字典中的詞。Lemmatization 則借助詞性標注（POS Tagging）與詞彙資料庫（如 WordNet），把「ran」還原為「run」、把「better」還原為「good」，結果一定是有意義的字典原形。本題明確要求「具有實際字典意義」且「考慮詞性」，這兩個條件都只有 Lemmatization 能滿足。代價是計算成本比 Stemming 高。

選項坑洞掃描：A 的 Stemming 速度快但結果不保證有語義，不符合「具有實際字典意義」的要求。C 的停用詞移除是過濾高頻低義詞，和詞形還原是完全不同的功能，處理的問題不同。D 的 Tokenization 是最前置的切詞步驟，把文本切成 token，不涉及詞形處理。

破題反射字：字典原形 → Lemmatization ／考慮詞性 → POS Tagging ／詞幹截斷不保證語義 → Stemming 的限制

第 3 題

某金融機構建立輿情監測系統，需分析社群媒體上的大量文本。工程師發現語料庫中充斥著「的」、「是」、「在」、「a」、「the」、「is」等詞語，這些詞在每篇文章中都大量出現，導致後續 TF-IDF 計算與主題分析產生嚴重干擾。下列哪一種前處理策略最能直接解決此問題？

(A) 對所有詞語進行詞形還原（Lemmatization），將不同形式的詞語統一還原為字典原形以減少詞彙維度

(B) 執行停用詞移除（Stop Word Removal），依據預定義詞表過濾掉對語義理解貢獻極低的高頻功能詞

(D) 使用 Bag-of-Words 模型將文本向量化，透過詞頻統計讓模型自行學習忽略無意義的高頻詞

答案：B

深度導讀解析

正確答案：B

核心技術點：停用詞移除的定義、時機與對下游任務的影響

中級理論拆解：停用詞（Stop Words）是語言中高頻出現但對語義區分幫助極小的功能詞，例如連接詞、介系詞、助詞。在進行特徵提取之前移除它們，可以大幅降低詞彙維度、減少計算量，並讓模型聚焦在有語義貢獻的實詞。停用詞移除通常是 NLP 前處理管線中最早執行的步驟之一，作用是「清雜訊」。各語言有各自的停用詞詞表，也可以根據業務場景自訂。

選項坑洞掃描：A 的 Lemmatization 是處理詞形變化，不是過濾高頻無義詞，兩者目的不同。C 的 TF-IDF 確實透過 IDF 降低高頻詞的權重，但它是特徵加權工具，不是「移除」這些詞，停用詞依然存在於向量空間中佔據維度。D 的 BoW 根本不會讓模型「自行忽略」高頻詞，反而高頻詞的計數會更突出。

破題反射字：高頻低義詞 → 停用詞／前處理清雜訊 → Stop Word Removal ／功能詞干擾 → 移除後再做特徵提取

第 4 題

某內容平台使用 TF-IDF 對文章進行關鍵字萃取，以改善搜尋引擎的相關性排序。資料工程師解釋，TF-IDF 中的 IDF（Inverse Document Frequency）分量設計，是為了補償 Bag-of-Words 模型在特定場景下的根本缺陷。下列何者最正確描述 IDF 所解決的問題及其運作邏輯？

(A) BoW 無法保留詞語的出現順序，IDF 透過為每個詞語附加位置權重，讓模型能感知句子中詞語的前後語境關係

(B) BoW 對所有詞語一視同仁只計算頻次，IDF 透過衡量詞語在整體語料庫中的稀有程度，降低常見詞的權重並提升稀有詞的鑑別力

(D) BoW 忽略詞語的語義關聯，IDF 透過計算詞語在語料庫中的共現頻率，建立詞語之間的語義相似度矩陣

答案：B

深度導讀解析

正確答案：B

核心技術點：TF-IDF 的 IDF 分量設計邏輯與對 BoW 的改進

中級理論拆解：BoW 只統計詞頻，「的」在每篇文章都出現 50 次，「量子糾纏」只在物理文章出現 3 次，但 BoW 給「的」更高的計數，反而讓它在向量中更突出。IDF 的計算公式是 $\log\frac{N}{df_t}$，N 是文件總數，$df_t$ 是包含該詞的文件數。一個詞出現在越多文件中，IDF 越低；只出現在少數文件的詞，IDF 越高。TF-IDF = TF × IDF，最終讓「量子糾纏」這種高鑑別力的稀有詞獲得更高的權重，「的」這種泛用詞被壓低。

選項坑洞掃描：A 說 IDF 附加位置權重，這是 n-gram 或位置編碼（Positional Encoding）的概念，IDF 完全不處理詞序問題。C 說 IDF 做長度正規化，長度正規化是 TF 計算時的一種變體（用比例而非絕對次數），不是 IDF 的功能。D 說 IDF 計算共現頻率建立語義矩陣，這是 Word2Vec 或 PMI 矩陣的概念，IDF 不考慮詞語之間的關係。

破題反射字：常見詞權重過高 → BoW 的缺陷／ IDF → 稀有詞獲得更高權重／ $\log\frac{N}{df_t}$ → IDF 公式

第 5 題

某跨國企業的客服系統收到大量中英文混雜的留言，分析師發現「人工智慧」、「人工智能」、「AI」、「Artificial Intelligence」四種表達在語料中交替出現，但語義完全相同。若直接用 BoW 或 TF-IDF 建模，這四個詞會被視為完全不同的特徵，嚴重影響統計分析的準確性。下列哪一種前處理策略最能從根本解決此問題？

(A) 對語料進行分詞（Tokenization）後執行詞幹提取（Stemming），透過詞綴截斷讓不同語言的表達形式收斂至相同詞根

(B) 擴大訓練語料庫的規模，讓模型透過大量樣本自然學習到這四種表達方式在語境中的等價關係

(D) 改用 Word2Vec 或 BERT 等語義嵌入模型，透過向量空間中的餘弦相似度自動處理同義詞的語義對齊問題

答案：C

深度導讀解析

正確答案：C

核心技術點：文本正規化與同義詞詞典在跨語言語義統一中的應用

中級理論拆解：這是典型的「表面形式不同、語義完全相同」問題，在多語言或專業領域語料中極為常見。文本正規化（Text Normalization）包含大小寫統一、全形半形轉換、縮寫展開等標準化操作；搭配領域同義詞詞典（Synonym Dictionary），在向量化前把「人工智慧」、「人工智能」、「AI」、「Artificial Intelligence」全部映射為同一個標準詞彙（如「AI」），後續無論用 BoW 還是 TF-IDF，這四種表達都會落在同一個特徵維度上，解決問題最直接。

選項坑洞掃描：A 的 Stemming 是截斷英文詞綴的工具，對中文完全無效，也無法處理「AI」和「人工智慧」的跨語言等價關係。B 靠擴大語料讓模型自學，這在語義嵌入模型（如 BERT）中有一定效果，但在 BoW / TF-IDF 這類詞袋模型中，樣本再多這四個詞依然是四個獨立維度，治標不治本。D 的語義嵌入模型確實能捕捉語義相似性，但這已經是換模型架構，不是「前處理策略」，且題目要求在 BoW / TF-IDF 的框架下解決問題。

破題反射字：同義詞統一 → 同義詞詞典／向量化前處理 → 文本正規化／跨語言等價 → 映射至標準詞彙

刷題小提醒

寫錯的題目別只是死記答案。回到白話攻略文看背後的邏輯，這才是正式考場能靈活應變的關鍵。建議先看教學影片、再刷題，效果加倍。

👉 更多備考資源：iPAS 自學路 YouTube 頻道

#iPAS

#AI應用規劃師

#AI自學

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

374會員

99內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

你可能也想看

塔妮雅的沙龍

擔心它，不如好好使用它：《CHATGPT提問課，做個懂AI的高效工作者》

為了充分發揮AI的潛力，我們必須深入瞭解其運作模式和思考邏輯，並學會與AI對話的技巧。《ChatGPT提問課，做個懂AI的高效工作者》這本書提供了豐富的實例，讓讀者更容易學會如何提出精準的問題，並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說，是一本值得一看的書。

2024/06/10

塔妮雅的沙龍

擔心它，不如好好使用它：《CHATGPT提問課，做個懂AI的高效工作者》

2024/06/10

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

iBonnie_愛邦尼

語言模型初探

語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術，並提供了實際的應用參考點，幫助讀者深入理解自然語言處理的技術。

2024/04/17

2024/04/17

GPT 撇步，透過角色扮演幫助自己找到最佳解答

本文介紹瞭如何運用反問方式進行有效對話，並利用 GPT 開啟對話方式，達到更有效的溝通。探討了在專案進行中，希望透過問答的方式刺激思考，引導規劃產品導入的思考流程。並提供了實際案例和選定不同專業腳色時的發現。

#ChatGPT#創作#靈感

2024/08/04

彼得的外商隨筆

GPT 撇步，透過角色扮演幫助自己找到最佳解答

#ChatGPT#創作#靈感

2024/08/04

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

易樂的沙龍

創意與靈感來源

本篇文章分享了對創意和靈感來源的深入思考，以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法，提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用，以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。

2024/05/05

2024/05/05

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。

#chatgpt#LLM#AI

2024/03/31