【L21102】電腦視覺技術與應用|Max Pooling、ResNet、IoU、mAP、實例分割 模擬考題

更新 發佈閱讀 12 分鐘

建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道


第 1 題

某智慧工廠導入 CNN 瑕疵檢測系統,工程師在分析模型訓練過程時發現,Max Pooling 層在反向傳播時的梯度處理方式與卷積層不同。資深工程師要求新進成員解釋 Max Pooling 的梯度傳遞邏輯,以利後續調校模型收斂行為。下列何者最能正確描述 Max Pooling 在反向傳播中的梯度分配機制?

(A) 反向傳播時梯度僅傳遞給正向傳播中輸出最大值的輸入單元,其餘位置梯度為零,確保只有對輸出有貢獻的神經元獲得更新訊號

(B) 反向傳播時梯度平均分配給池化區域內所有輸入單元,確保每個神經元都能接收到來自上層的學習訊號而不遺漏任何資訊

(C) Max Pooling 層在反向傳播中完全被跳過,梯度直接從上一層傳遞至卷積層,因為池化操作不含可學習參數無需計算梯度

(D) 反向傳播時梯度根據各輸入單元的數值大小加權分配,數值越大的單元獲得越高比例的梯度,讓強特徵持續獲得更多更新

答案:A

深度導讀解析

正確答案:A

核心技術點:Max Pooling 的梯度傳遞機制(Max Unpooling)

中級理論拆解:Max Pooling 在正向傳播時只保留區域內的最大值並記錄其位置(Switch),反向傳播時梯度沿這個記錄的位置傳回,非最大值位置的梯度直接設為零。這個設計的邏輯是:只有貢獻了輸出值的神經元才需要被更新,其他神經元對輸出無貢獻,不需要接收梯度。

選項坑洞掃描:B 描述的是 Average Pooling 的梯度行為,Average Pooling 會把梯度均分給所有輸入單元。C 說 Max Pooling 完全跳過梯度計算,這是錯的,雖然池化層沒有可學習參數,但梯度仍需通過它傳遞給前層卷積層。D 按數值大小加權分配,這不是任何標準池化操作的梯度機制。

破題反射字:Max Pooling 反向傳播 → 只傳給最大值位置 / Switch 記錄 → 正向傳播記錄最大值座標 / 非最大值位置 → 梯度為零


第 2 題

某電腦視覺團隊訓練一個產品瑕疵分類模型,輸入影像尺寸為 64×64,通過一層卷積(kernel size=3×3、stride=1、padding=same)後,再接一層 Max Pooling(pool size=2×2、stride=2)。工程師需要確認輸出特徵圖尺寸,以設計後續全連接層的輸入維度。下列何者為正確的最終輸出尺寸?

(A) 卷積層輸出 64×64,Max Pooling 輸出 32×32,最終特徵圖尺寸為 32×32

(B) 卷積層輸出 62×62,Max Pooling 輸出 31×31,最終特徵圖尺寸為 31×31

(C) 卷積層輸出 64×64,Max Pooling 輸出 16×16,最終特徵圖尺寸為 16×16

(D) 卷積層輸出 62×62,Max Pooling 輸出 30×30,最終特徵圖尺寸為 30×30

答案:A

深度導讀解析

正確答案:A

核心技術點:Same Padding 的尺寸保留特性與 Max Pooling 的降維計算

中級理論拆解:Same Padding 的設計目標是讓卷積輸出尺寸等於輸入尺寸,stride=1 時自動填補足夠的零讓輸出保持 64×64。Max Pooling 的輸出尺寸公式為 $\lfloor(Input - Pool) / Stride\rfloor + 1 = \lfloor(64-2)/2\rfloor + 1 = 31 + 1 = 32$,輸出 32×32。記住:Same Padding → 尺寸不變;Pooling → 依公式計算。

選項坑洞掃描:B 說卷積輸出 62×62,這是沒有 padding 的情況(Valid Padding),題目明確指定 same padding,不適用。C 說 Pooling 輸出 16×16,這是 pool size=4×4 或 stride=4 的結果,與題目設定不符。D 兩個數字都錯,混淆了 Valid Padding 與錯誤的 Pooling 計算。

破題反射字:Same Padding → 輸出尺寸等於輸入 / Pooling 公式 → (Input - Pool)/Stride + 1 / Valid Padding → 輸出縮小


第 3 題

某自駕車公司評估行人偵測模型的效能,工程師提出用整體準確率(Accuracy)作為主要指標,但資深資料科學家反對,堅持應改用 mAP(mean Average Precision)。在行人偵測的場景中,下列何者最能正確說明 mAP 優於 Accuracy 的根本原因?

(A) mAP 透過 IoU 衡量邊界框定位精度,並在不同召回率閾值下計算各類別的精確率曲線面積再取平均,能同時評估定位與分類的綜合能力

(B) mAP 的計算速度比 Accuracy 快,在自駕車即時推論場景中能以更低的運算成本完成模型效能評估,更適合邊緣裝置部署

(C) Accuracy 只能用於二元分類問題,mAP 才能處理行人、車輛、號誌等多類別同時出現的物件偵測任務

(D) mAP 能直接反映模型的推論延遲與每秒偵測幀數,而 Accuracy 只衡量分類正確率,無法評估模型的即時處理能力

答案:A

深度導讀解析

正確答案:A

核心技術點:mAP 的計算邏輯與物件偵測評估的雙重需求(定位 + 分類)

中級理論拆解:物件偵測需要同時評估「分類對不對」和「框畫得準不準」。Accuracy 只看分類是否正確,完全忽略邊界框的定位品質——框到一半的行人算正確還是錯誤?mAP 透過 IoU 設定定位門檻(通常 0.5),再計算不同置信度閾值下的 Precision-Recall 曲線面積(AP),最後對所有類別取平均,同時量化了定位精度與分類能力。

選項坑洞掃描:B 說 mAP 計算速度更快,實際上 mAP 的計算比 Accuracy 複雜得多,需要對所有預測結果排序並積分,這不是選 mAP 的理由。C 說 Accuracy 只能用於二元分類,Accuracy 可以用於多類別分類,但在物件偵測中的問題是它忽略定位精度,不是類別數量的限制。D 說 mAP 反映推論延遲,mAP 是效果指標,推論延遲是效率指標,兩者完全不同維度。

破題反射字:定位精度 → IoU / 不同召回率下的精確率 → PR 曲線面積(AP) / 多類別平均 → mAP


第 4 題

某醫療影像新創公司計畫訓練一個腦部 MRI 腫瘤偵測模型,需求是不僅要找出腫瘤所在位置,還要精確標出每個腫瘤的完整輪廓,並且在同一張影像中區分出多個獨立的腫瘤個體。AI 規劃師評估了四種電腦視覺技術路線。下列何者最能滿足「像素級輪廓 + 區分不同個體」的雙重需求?

(A) 實例分割(Instance Segmentation),在像素級別同時完成每個腫瘤個體的輪廓標記與獨立識別,能區分同一影像中多個腫瘤實例

(B) 語義分割(Semantic Segmentation),對影像中所有腫瘤像素進行逐像素分類,以高解析度輪廓取代邊界框,精確標出腫瘤範圍

(C) 物件偵測(Object Detection),以邊界框標出每個腫瘤的位置與類別,搭配高 IoU 閾值確保框的精確度達到醫療診斷標準

(D) 影像分類(Image Classification),判斷每張 MRI 影像是否含有腫瘤,並輸出腫瘤類型的置信度分數供醫師參考

答案:A

深度導讀解析

正確答案:A

核心技術點:實例分割 vs. 語義分割的核心差異——能否區分同類別的不同個體

中級理論拆解:語義分割把所有腫瘤像素標為同一類別,無法區分「腫瘤 A」和「腫瘤 B」;實例分割在語義分割的基礎上進一步為每個獨立個體賦予不同的 ID,Mask R-CNN 是典型代表。本題的關鍵需求是「區分不同個體」,這是實例分割獨有的能力。像素級輪廓兩者都能做到,但個體區分只有實例分割能滿足。

選項坑洞掃描:B 的語義分割能做像素級輪廓,但無法區分同一影像中的多個腫瘤個體,所有腫瘤像素會被標成同一類,失去個體識別能力。C 的物件偵測輸出的是矩形邊界框,無法呈現腫瘤的真實不規則輪廓,對醫療診斷精度不足。D 的影像分類只輸出全圖級別的類別判斷,無法定位或標出腫瘤範圍。

破題反射字:像素級輪廓 → 分割任務 / 區分不同個體 → 實例分割 / 語義分割限制 → 無法區分同類別個體


第 5 題

某自動駕駛團隊比較兩個行人偵測模型的表現。模型 A 使用 ResNet-50 骨幹網路,模型 B 使用一個沒有殘差連接的同等深度 CNN。測試發現模型 B 在訓練後期準確率反而下降,且梯度監控顯示深層網路的梯度值接近零。資深工程師指出這是 ResNet 殘差區塊要解決的核心問題。下列何者最能正確描述殘差連接(Skip Connection)的設計邏輯與它解決的問題?

(A) 殘差連接讓輸入訊號可以跳過若干層直接加到深層輸出,形成梯度的捷徑傳遞路徑,解決深層網路訓練時的梯度消失與網路退化問題

(B) 殘差連接在每個卷積層後加入 Batch Normalization,透過標準化每層的輸出分布,讓深層網路的梯度保持在穩定範圍而不消失

(C) 殘差連接透過降低每層的學習率,讓深層網路在訓練後期以更小的步伐精細調整權重,避免梯度爆炸導致的準確率震盪

(D) 殘差連接在模型推論時動態跳過表現不佳的層,透過自適應深度調整讓網路在不同輸入下自動選擇最適合的有效層數

答案:A

深度導讀解析

正確答案:A

核心技術點:ResNet 殘差連接的梯度捷徑機制與網路退化問題

中級理論拆解:深層 CNN 在反向傳播時梯度需逐層相乘,50 層以上容易因連乘導致梯度消失,淺層幾乎無法更新,準確率不升反降(即網路退化)。ResNet 的殘差區塊定義為 F(x) + x,x 是跳過卷積層的直接連接。反向傳播時梯度可透過這條捷徑直接流回淺層,不再依賴逐層連乘,根本解決梯度消失問題,讓 150 層以上的網路得以有效訓練。

選項坑洞掃描:B 說殘差連接是加入 Batch Normalization,BN 確實常與 ResNet 搭配使用,但兩者是獨立的技術,殘差連接的核心是 Skip Connection 而非 BN。C 說殘差連接降低學習率,學習率是優化器的超參數,與網路架構的殘差連接無關。D 說推論時動態跳過層,殘差連接在訓練和推論時都是固定的架構設計,不是動態選擇機制。

破題反射字:網路退化 → 深層 CNN 準確率不升反降 / Skip Connection → 梯度捷徑傳遞 / F(x) + x → 殘差區塊公式


還在用零散筆記備考?

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
373會員
99內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
2025/10/16
建議先看完影片在做題目,效果加倍https://youtu.be/wgPvMB4anV8
2025/10/16
建議先看完影片在做題目,效果加倍https://youtu.be/wgPvMB4anV8
2025/10/16
建議先看完影片在做題目,效果加倍https://youtu.be/FP8g2kFMTOo
2025/10/16
建議先看完影片在做題目,效果加倍https://youtu.be/FP8g2kFMTOo
2025/10/16
建議先看完影片再考,成效更好https://youtu.be/LeaacbEw6Fc
2025/10/16
建議先看完影片再考,成效更好https://youtu.be/LeaacbEw6Fc
看更多
你可能也想看
Thumbnail
高中數學主題練習—分點計算
Thumbnail
高中數學主題練習—分點計算
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著來談 Transformer 架構中的 Feedforward Network (FFN): 其為全連接的神經網路架構 回顧 AI說書 - 從0開始 - 64
Thumbnail
Leetcode 精選75題 題目與題解 熱門考點 目錄 (持續更新中) 建議從左側目錄 或者 按Ctrl+F輸入關鍵字進行搜尋
Thumbnail
Leetcode 精選75題 題目與題解 熱門考點 目錄 (持續更新中) 建議從左側目錄 或者 按Ctrl+F輸入關鍵字進行搜尋
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News