【L21102】電腦視覺技術與應用｜CNN、影像辨識、物件偵測模擬考題

2026/04/01 更新2025/10/16 發佈閱讀 11 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某智慧工廠導入 CNN 模型進行表面瑕疵檢測，工程師發現第一層卷積層學到的濾波器主要是邊緣與紋理梯度，而非直接辨識「刮痕」這類高階概念。資深架構師解釋這是 CNN 層次化特徵提取的正常結果。下列何者最能正確描述 CNN 從淺層到深層的特徵學習邏輯？

(A) CNN 淺層學習低階局部特徵（邊緣、紋理），深層將低階特徵組合為高階語義特徵（形狀、物件類別），形成層次化表示

(B) CNN 每層卷積都對全圖進行全域掃描，淺層負責粗略分類、深層負責精細像素定位，兩者分工處理不同解析度的辨識任務

(D) CNN 的每一層都學習相同類型的特徵，層數增加只是為了提升模型容量，讓同一類特徵的辨識準確率隨層數線性提升

答案：A

深度導讀解析

正確答案：A

核心技術點：CNN 的層次化特徵提取機制

中級理論拆解：CNN 的設計邏輯是模擬視覺皮層的階層處理。淺層卷積核感受野小，學到的是邊緣、顏色梯度等低階局部特徵；中層將這些低階特徵組合為紋理、形狀；深層感受野涵蓋更大範圍，學到的是「刮痕」、「裂縫」等高階語義概念。這個層次化結構讓 CNN 不需要人工設計特徵，從原始像素自動提煉出任務相關的表示。

選項坑洞掃描：B 說每層做全域掃描，卷積操作是局部感受野而非全圖掃描，全域感知是 Transformer Self-Attention 的特性。C 把池化層說成學習高階特徵，池化的功能是降維與平移不變性，不是學習語義特徵。D 說各層學相同特徵，這違背 CNN 層次化的核心設計原則。

破題反射字：淺層邊緣紋理 → 低階特徵／深層語義概念 → 高階特徵／層次化表示 → CNN 核心設計邏輯

第 2 題

某電商平台建立商品圖片分類模型，使用自行收集的 8,000 張商品照片從頭訓練 CNN，但驗證集準確率僅達 61%，遠低於業務要求的 85%。資料科學家懷疑是訓練資料量不足所致。AI 規劃師建議改用遷移學習（Transfer Learning）。下列何者最能正確描述遷移學習在此情境中的核心價值與適用邏輯？

(A) 載入在 ImageNet 預訓練的 CNN 模型，凍結前段特徵提取層的權重，只微調後段分類層，讓模型保留通用視覺特徵並快速適應商品分類任務

(B) 將 8,000 張商品照片複製擴增為 80,000 張，透過大量資料擴增（Data Augmentation）讓模型從頭訓練，效果等同於在大型資料集上預訓練的遷移學習

(D) 載入預訓練模型後對所有層同步進行高學習率的全參數微調，讓模型快速遺忘原始 ImageNet 知識並重新學習商品圖片的特定視覺特徵

答案：A

深度導讀解析

正確答案：A

核心技術點：遷移學習的凍結策略與預訓練特徵的通用性

中級理論拆解：ImageNet 預訓練模型已從 120 萬張圖片學到邊緣、紋理、形狀等通用視覺特徵，這些低階特徵對商品分類同樣有效。凍結前段層保留這些通用特徵，只微調後段分類層讓模型適應新任務，大幅減少所需訓練資料量與計算成本。8,000 張從頭訓練不夠，但作為微調資料已足夠。

選項坑洞掃描：B 說資料擴增等同遷移學習，擴增只是讓模型見到更多變化，無法補充預訓練模型學到的豐富視覺知識，效果差距顯著。C 說來源與目標任務必須相同，遷移學習的核心價值恰恰是跨任務遷移，低階視覺特徵在不同分類任務間高度通用。D 說高學習率全參數微調，這會導致「災難性遺忘」，預訓練權重被破壞，效果反而更差。

破題反射字：資料量不足 → 遷移學習／凍結前段層 → 保留通用視覺特徵／災難性遺忘 → 全參數高學習率微調的風險

第 3 題

某零售業者在超市導入即時貨架缺貨偵測系統，需要同時完成兩件事：辨識畫面中有哪些商品類別，以及精確標出每個商品在畫面中的位置與邊界框（Bounding Box）。系統需在每幀 33 毫秒內完成推論。下列何者最能正確描述滿足此需求應選用的技術路線及其原因？

(A) 採用 YOLO（You Only Look Once）等單階段物件偵測架構，在單次前向傳播中同時輸出類別與邊界框，推論速度符合即時需求

(B) 採用兩階段偵測架構（如 Faster R-CNN），先生成候選區域再分類，雖然推論時間較長但邊界框精度更高，適合即時貨架偵測

(D) 採用語義分割（Semantic Segmentation）模型對每個像素進行分類，透過像素級的類別圖推算各商品的邊界框座標

答案：A

深度導讀解析

正確答案：A

核心技術點：單階段 vs. 兩階段物件偵測的速度與精度權衡

中級理論拆解：物件偵測需要同時完成「分類」與「定位」兩個子任務。兩階段架構（Faster R-CNN）先用 Region Proposal Network 生成候選框，再逐一分類，精度高但推論慢（通常 100ms 以上）。YOLO 等單階段架構將整張圖分成格子，每個格子同時預測類別與邊界框，單次前向傳播完成全部推論，現代版本可在 10ms 內完成，符合 33ms 的即時門檻。

選項坑洞掃描：B 說兩階段架構適合即時偵測，推論時間通常遠超 33ms，在即時需求下不可行。C 用純分類 CNN 無法輸出邊界框座標，只有類別資訊，規則引擎無法從類別推算位置。D 的語義分割是像素級分類，計算量更大且輸出是像素圖而非邊界框，需要後處理才能得到框座標，延遲更高。

破題反射字：即時推論 → 單階段偵測／ YOLO → 單次前向傳播輸出類別與框／兩階段 → 精度高但速度慢

第 4 題

某醫療影像團隊使用 CNN 訓練 X 光肺炎偵測模型，訓練集僅有 2,400 張影像，且正常樣本 1,800 張、肺炎樣本 600 張。初始模型整體準確率達 75%，但臨床醫師發現模型幾乎把所有影像都判定為正常。團隊計畫透過資料擴增（Data Augmentation）改善訓練資料品質。下列哪一組擴增策略最適合 X 光影像的醫療場景？

(A) 對肺炎樣本進行隨機水平翻轉、隨機旋轉（±15度）與亮度調整，同時對正常樣本進行欠採樣，使兩類樣本數量達到平衡

(B) 對所有訓練影像進行大角度旋轉（180度）、垂直翻轉與極端亮度調整，讓模型學習各種極端光線條件下的肺部特徵

(D) 直接複製肺炎樣本三次使兩類數量相同，不做任何影像變換，讓模型透過重複學習加深對肺炎特徵的記憶

答案：A

深度導讀解析

正確答案：A

核心技術點：醫療影像資料擴增的合理性邊界與類別不平衡處理

中級理論拆解：醫療影像的擴增必須保留臨床意義。X 光片的水平翻轉和小角度旋轉（±15度）在臨床上仍然合理（人體有左右差異但不會 180 度倒置），亮度調整模擬不同曝光條件。同時對多數類（正常樣本）欠採樣，從兩個方向解決類別不平衡，比單純擴增少數類更有效。75% 準確率但全判正常，是典型的類別不平衡導致模型偏向多數類的症狀。

選項坑洞掃描：B 的 180 度旋轉與垂直翻轉在 X 光臨床上無意義（不會有倒置的肺部影像），會引入雜訊而非有效特徵。C 的文字浮水印與大幅裁切會破壞診斷關鍵區域，導致模型學到無效特徵。D 單純複製樣本不增加任何新資訊，模型只是重複記憶同樣的影像，對泛化能力毫無幫助。

破題反射字：類別不平衡 → 欠採樣 + 少數類擴增／醫療影像擴增 → 保留臨床意義／全判多數類 → 不平衡的典型症狀

第 5 題

某自駕車公司的電腦視覺系統需要在行車過程中即時辨識行人、車輛、號誌等多類物件。工程師評估後選用了錨框機制（Anchor Box）設計。下列何者最能正確描述錨框在物件偵測中的核心功能，以及它解決了什麼問題？

(A) 錨框是預先定義的一組不同長寬比與尺寸的參考框，讓模型學習預測真實物件框相對於錨框的偏移量，解決物件形狀與大小差異極大的偵測問題

(B) 錨框是在推論階段對偵測結果進行後處理的工具，透過非極大值抑制（NMS）合併重疊的預測框，確保每個物件只輸出一個最終邊界框

(D) 錨框等同於卷積層的濾波器，每個錨框對應一個特定的卷積核，專門用於偵測特定方向的邊緣特徵以辨識不同形狀的物件類別

答案：A

深度導讀解析

正確答案：A

核心技術點：錨框機制的設計動機與偵測多尺度物件的解決邏輯

中級理論拆解：自駕車場景中物件尺寸差異極大——遠處的行人可能只有 20×50 像素，近處的卡車可能佔畫面 30%。直接讓模型從零預測任意形狀的框非常困難。錨框預先定義一組覆蓋常見長寬比（1:1、1:2、2:1）與尺寸的參考框，模型只需學習預測真實框相對於最接近錨框的偏移量（dx、dy、dw、dh），大幅降低學習難度並提升對多尺度物件的偵測能力。

選項坑洞掃描：B 描述的是非極大值抑制（NMS）的功能，NMS 是後處理步驟用於去除重複框，不是錨框的定義。C 說錨框是標註工具，錨框是模型架構的組成部分，與人工標註流程無關。D 把錨框和卷積濾波器混為一談，兩者是完全不同層級的概念，錨框是偵測頭的設計，不是特徵提取的卷積核。

破題反射字：多尺度物件 → 錨框設計動機／預測偏移量 → 錨框的學習目標／ NMS → 後處理去重複框

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

373會員

99內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

iPAS自學路｜AI應用規劃師備考筆記與考點解析的其他內容

2025/10/16

【L21103】生成式 AI 技術與應用｜LoRA 微調、Prompt Engineering、RAG 模擬考題

建議先看完影片在做題目，效果加倍https://youtu.be/FP8g2kFMTOo

2025/10/16

【L21103】生成式 AI 技術與應用｜LoRA 微調、Prompt Engineering、RAG 模擬考題

建議先看完影片在做題目，效果加倍https://youtu.be/FP8g2kFMTOo

2025/10/16

【L21101】自然語言處理技術與應用｜Word Embedding、RNN、Transformer、BERT/GPT

建議先看完影片再考，成效更好https://youtu.be/LeaacbEw6Fc

2025/10/16

【L21101】自然語言處理技術與應用｜Word Embedding、RNN、Transformer、BERT/GPT

建議先看完影片再考，成效更好https://youtu.be/LeaacbEw6Fc

2025/10/15

【L21101】自然語言處理技術與應用｜NLP 前處理、BoW、TF-IDF 模擬考題

建議看完影片再考，成效更好 https://youtu.be/ACY1IswFOJU

2025/10/15

【L21101】自然語言處理技術與應用｜NLP 前處理、BoW、TF-IDF 模擬考題

建議看完影片再考，成效更好 https://youtu.be/ACY1IswFOJU

看更多

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

本文主要介紹，如何利用VAE變分自編碼器來訓練生成圖片。訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器，主要是一種將原始資料編碼到潛在向量空間，再編碼回來的神經網路。

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_訓練篇

#深度學習#VAE模型#生成圖片

2024/07/25

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

螃蟹_crab的沙龍

[深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇

延續上一篇訓練GAM模型，這次我們讓神經網路更多層更複雜一點，來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇資料集分割處理的部分在延續上篇文章，從第五點開始後修改即可，前面都一樣訓練過程，比較圖是不是CNN的效果比MLP還要好，

#CNN的GAN模型#Python#深度學習

2024/07/26

螃蟹_crab的沙龍

[深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇

#CNN的GAN模型#Python#深度學習

2024/07/26

螃蟹_crab的沙龍

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_訓練篇

本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。

#深度學習#DCGAN#DCGAN生成手寫阿拉伯數字

2024/07/27

螃蟹_crab的沙龍

[深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_訓練篇

本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。

#深度學習#DCGAN#DCGAN生成手寫阿拉伯數字

2024/07/27

dab戴伯的沙龍

卷積神經網路(CNN)在影像辨識中的應用

卷積神經網路（CNN）是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用，包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文，讀者將瞭解CNN在影像辨識領域的優勢和運作原理。

2024/05/02

2024/05/02

【邁向圖神經網絡GNN】Part3: 圖神經網絡的核心-訊息傳遞機制

本篇文章專注於消息傳遞（message passing）在圖神經網絡（GNN）中的應用，並以簡單的例子解釋了消息傳遞的過程和機制。

#GNN#Graph#messagepassin

2024/07/24

Karen的沙龍

【邁向圖神經網絡GNN】Part3: 圖神經網絡的核心-訊息傳遞機制

本篇文章專注於消息傳遞（message passing）在圖神經網絡（GNN）中的應用，並以簡單的例子解釋了消息傳遞的過程和機制。

#GNN#Graph#messagepassin

2024/07/24

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

GNN發展背景傳統的深度學習模型如在計算機視覺（CV）和自然語言處理（NLP）領域中極為成功，主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構，例如影像是由有序的像素點組成。然而，在真實世界中，許多數據是非結構化的，如化合物結構（原子和分子）。這些數據雖然具有一定的規則性，

#數據#結構#社交

2024/07/22

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

#數據#結構#社交

2024/07/22

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28