建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某電商平台建立客服自動化系統,需從「我的訂單 ORD-20240315-8821 的 iPhone 15 Pro 還沒到貨」這類非結構化留言中,自動萃取產品名稱與訂單編號,傳入後台系統查詢物流狀態。AI 規劃師評估後需選擇最適合的 NLP 技術。下列何者最能直接達成此目的?
(A) 情感分析(Sentiment Analysis),判斷留言的正負面情緒極性,協助客服團隊優先處理負評案件
(B) 命名實體識別(NER),從非結構化文本中自動識別並標記產品名稱、訂單編號等具有特定類別的關鍵實體
(C) 文本摘要(Text Summarization),將長篇客服對話壓縮為重點摘要,提升客服人員閱讀效率
(D) 主題模型(Topic Modeling),從大量留言中歸納出潛在主題分布,協助分析客訴的常見問題類型
答案:B
深度導讀解析
正確答案:B
核心技術點:命名實體識別(NER)的功能定位與適用場景
中級理論拆解:NER 的核心任務是從非結構化文本中識別出具有特定語義類別的實體,常見類別包含人名(PER)、地名(LOC)、組織名(ORG)、產品名、日期、數字編號等。本題的需求是抽出「iPhone 15 Pro」(產品名)和「ORD-20240315-8821」(訂單編號)這兩個實體,再傳入後台查詢,這正是 NER 的核心用途。現代 NER 系統通常基於 BERT 等預訓練語言模型微調,能處理客服場景中多變的表達方式。
選項坑洞掃描:A 的情感分析只能告訴你客戶情緒是正面還是負面,無法萃取訂單編號或產品名稱。C 的文本摘要是壓縮長文為短文,不是從文本中抽取結構化欄位。D 的主題模型是無監督的文本分群工具,適合探索大量文本的潛在主題,不適合精確抽取特定實體。
破題反射字:萃取關鍵資訊 → NER / 產品名、訂單號、人名 → 命名實體 / 結構化輸出 → 實體識別後傳入後台
第 2 題
某科技公司建立 NLP 前處理管線,對英文技術文件進行分析。管線中需要將「running」、「runs」、「ran」統一還原為基本形式,以利後續詞頻統計與主題分析。資深工程師要求還原結果必須是具有實際字典意義的單字,且需考慮詞性以避免歧義。下列何者最符合此需求?
(A) 詞幹提取(Stemming),透過規則化去除詞綴快速將詞語縮短,處理速度快且能有效降低詞彙維度
(B) 詞形還原(Lemmatization),依據詞性與語境將詞語還原為字典原形,確保輸出結果具有明確語義
(C) 停用詞移除(Stop Word Removal),過濾掉語料中高頻但低語義貢獻的詞語,減少後續模型的運算負擔
(D) 分詞(Tokenization),將連續文本切割為獨立的詞語單元,作為所有 NLP 前處理流程的第一步驟
答案:B
深度導讀解析
正確答案:B
核心技術點:Stemming 與 Lemmatization 的機制差異與適用場景選擇
中級理論拆解:Stemming 是規則型的詞綴截斷,例如 Porter Stemmer 會把「running」變成「run」,但也可能把「studies」變成「studi」——這不是真實字典中的詞。Lemmatization 則借助詞性標注(POS Tagging)與詞彙資料庫(如 WordNet),把「ran」還原為「run」、把「better」還原為「good」,結果一定是有意義的字典原形。本題明確要求「具有實際字典意義」且「考慮詞性」,這兩個條件都只有 Lemmatization 能滿足。代價是計算成本比 Stemming 高。
選項坑洞掃描:A 的 Stemming 速度快但結果不保證有語義,不符合「具有實際字典意義」的要求。C 的停用詞移除是過濾高頻低義詞,和詞形還原是完全不同的功能,處理的問題不同。D 的 Tokenization 是最前置的切詞步驟,把文本切成 token,不涉及詞形處理。
破題反射字:字典原形 → Lemmatization / 考慮詞性 → POS Tagging / 詞幹截斷不保證語義 → Stemming 的限制
第 3 題
某金融機構建立輿情監測系統,需分析社群媒體上的大量文本。工程師發現語料庫中充斥著「的」、「是」、「在」、「a」、「the」、「is」等詞語,這些詞在每篇文章中都大量出現,導致後續 TF-IDF 計算與主題分析產生嚴重干擾。下列哪一種前處理策略最能直接解決此問題?
(A) 對所有詞語進行詞形還原(Lemmatization),將不同形式的詞語統一還原為字典原形以減少詞彙維度
(B) 執行停用詞移除(Stop Word Removal),依據預定義詞表過濾掉對語義理解貢獻極低的高頻功能詞
(C) 對語料進行 TF-IDF 加權,透過 IDF 分量自動降低在所有文件中都高頻出現的詞語之權重
(D) 使用 Bag-of-Words 模型將文本向量化,透過詞頻統計讓模型自行學習忽略無意義的高頻詞
答案:B
深度導讀解析
正確答案:B
核心技術點:停用詞移除的定義、時機與對下游任務的影響
中級理論拆解:停用詞(Stop Words)是語言中高頻出現但對語義區分幫助極小的功能詞,例如連接詞、介系詞、助詞。在進行特徵提取之前移除它們,可以大幅降低詞彙維度、減少計算量,並讓模型聚焦在有語義貢獻的實詞。停用詞移除通常是 NLP 前處理管線中最早執行的步驟之一,作用是「清雜訊」。各語言有各自的停用詞詞表,也可以根據業務場景自訂。
選項坑洞掃描:A 的 Lemmatization 是處理詞形變化,不是過濾高頻無義詞,兩者目的不同。C 的 TF-IDF 確實透過 IDF 降低高頻詞的權重,但它是特徵加權工具,不是「移除」這些詞,停用詞依然存在於向量空間中佔據維度。D 的 BoW 根本不會讓模型「自行忽略」高頻詞,反而高頻詞的計數會更突出。
破題反射字:高頻低義詞 → 停用詞 / 前處理清雜訊 → Stop Word Removal / 功能詞干擾 → 移除後再做特徵提取
第 4 題
某內容平台使用 TF-IDF 對文章進行關鍵字萃取,以改善搜尋引擎的相關性排序。資料工程師解釋,TF-IDF 中的 IDF(Inverse Document Frequency)分量設計,是為了補償 Bag-of-Words 模型在特定場景下的根本缺陷。下列何者最正確描述 IDF 所解決的問題及其運作邏輯?
(A) BoW 無法保留詞語的出現順序,IDF 透過為每個詞語附加位置權重,讓模型能感知句子中詞語的前後語境關係
(B) BoW 對所有詞語一視同仁只計算頻次,IDF 透過衡量詞語在整體語料庫中的稀有程度,降低常見詞的權重並提升稀有詞的鑑別力
(C) BoW 無法處理不同長度的文件,IDF 透過對詞頻進行文件長度正規化,使長短文件的詞頻分布具有可比性
(D) BoW 忽略詞語的語義關聯,IDF 透過計算詞語在語料庫中的共現頻率,建立詞語之間的語義相似度矩陣
答案:B
深度導讀解析
正確答案:B
核心技術點:TF-IDF 的 IDF 分量設計邏輯與對 BoW 的改進
中級理論拆解:BoW 只統計詞頻,「的」在每篇文章都出現 50 次,「量子糾纏」只在物理文章出現 3 次,但 BoW 給「的」更高的計數,反而讓它在向量中更突出。IDF 的計算公式是 $\log\frac{N}{df_t}$,N 是文件總數,$df_t$ 是包含該詞的文件數。一個詞出現在越多文件中,IDF 越低;只出現在少數文件的詞,IDF 越高。TF-IDF = TF × IDF,最終讓「量子糾纏」這種高鑑別力的稀有詞獲得更高的權重,「的」這種泛用詞被壓低。
選項坑洞掃描:A 說 IDF 附加位置權重,這是 n-gram 或位置編碼(Positional Encoding)的概念,IDF 完全不處理詞序問題。C 說 IDF 做長度正規化,長度正規化是 TF 計算時的一種變體(用比例而非絕對次數),不是 IDF 的功能。D 說 IDF 計算共現頻率建立語義矩陣,這是 Word2Vec 或 PMI 矩陣的概念,IDF 不考慮詞語之間的關係。
破題反射字:常見詞權重過高 → BoW 的缺陷 / IDF → 稀有詞獲得更高權重 / $\log\frac{N}{df_t}$ → IDF 公式
第 5 題
某跨國企業的客服系統收到大量中英文混雜的留言,分析師發現「人工智慧」、「人工智能」、「AI」、「Artificial Intelligence」四種表達在語料中交替出現,但語義完全相同。若直接用 BoW 或 TF-IDF 建模,這四個詞會被視為完全不同的特徵,嚴重影響統計分析的準確性。下列哪一種前處理策略最能從根本解決此問題?
(A) 對語料進行分詞(Tokenization)後執行詞幹提取(Stemming),透過詞綴截斷讓不同語言的表達形式收斂至相同詞根
(B) 擴大訓練語料庫的規模,讓模型透過大量樣本自然學習到這四種表達方式在語境中的等價關係
(C) 建立領域同義詞詞典並執行文本正規化(Text Normalization),在向量化前統一將四種表達映射至同一標準詞彙
(D) 改用 Word2Vec 或 BERT 等語義嵌入模型,透過向量空間中的餘弦相似度自動處理同義詞的語義對齊問題
答案:C
深度導讀解析
正確答案:C
核心技術點:文本正規化與同義詞詞典在跨語言語義統一中的應用
中級理論拆解:這是典型的「表面形式不同、語義完全相同」問題,在多語言或專業領域語料中極為常見。文本正規化(Text Normalization)包含大小寫統一、全形半形轉換、縮寫展開等標準化操作;搭配領域同義詞詞典(Synonym Dictionary),在向量化前把「人工智慧」、「人工智能」、「AI」、「Artificial Intelligence」全部映射為同一個標準詞彙(如「AI」),後續無論用 BoW 還是 TF-IDF,這四種表達都會落在同一個特徵維度上,解決問題最直接。
選項坑洞掃描:A 的 Stemming 是截斷英文詞綴的工具,對中文完全無效,也無法處理「AI」和「人工智慧」的跨語言等價關係。B 靠擴大語料讓模型自學,這在語義嵌入模型(如 BERT)中有一定效果,但在 BoW / TF-IDF 這類詞袋模型中,樣本再多這四個詞依然是四個獨立維度,治標不治本。D 的語義嵌入模型確實能捕捉語義相似性,但這已經是換模型架構,不是「前處理策略」,且題目要求在 BoW / TF-IDF 的框架下解決問題。
破題反射字:同義詞統一 → 同義詞詞典 / 向量化前處理 → 文本正規化 / 跨語言等價 → 映射至標準詞彙
刷題小提醒
寫錯的題目別只是死記答案。回到白話攻略文看背後的邏輯,這才是正式考場能靈活應變的關鍵。建議先看教學影片、再刷題,效果加倍。
👉 更多備考資源:iPAS 自學路 YouTube 頻道























