【L21102】電腦視覺技術與應用|CNN、影像辨識、物件偵測 模擬考題

更新 發佈閱讀 11 分鐘

建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道


第 1 題

某智慧工廠導入 CNN 模型進行表面瑕疵檢測,工程師發現第一層卷積層學到的濾波器主要是邊緣與紋理梯度,而非直接辨識「刮痕」這類高階概念。資深架構師解釋這是 CNN 層次化特徵提取的正常結果。下列何者最能正確描述 CNN 從淺層到深層的特徵學習邏輯?

(A) CNN 淺層學習低階局部特徵(邊緣、紋理),深層將低階特徵組合為高階語義特徵(形狀、物件類別),形成層次化表示

(B) CNN 每層卷積都對全圖進行全域掃描,淺層負責粗略分類、深層負責精細像素定位,兩者分工處理不同解析度的辨識任務

(C) CNN 的池化層(Pooling Layer)負責學習高階語義特徵,卷積層只負責降低空間維度以減少計算量,兩者功能嚴格分離

(D) CNN 的每一層都學習相同類型的特徵,層數增加只是為了提升模型容量,讓同一類特徵的辨識準確率隨層數線性提升

答案:A

深度導讀解析

正確答案:A

核心技術點:CNN 的層次化特徵提取機制

中級理論拆解:CNN 的設計邏輯是模擬視覺皮層的階層處理。淺層卷積核感受野小,學到的是邊緣、顏色梯度等低階局部特徵;中層將這些低階特徵組合為紋理、形狀;深層感受野涵蓋更大範圍,學到的是「刮痕」、「裂縫」等高階語義概念。這個層次化結構讓 CNN 不需要人工設計特徵,從原始像素自動提煉出任務相關的表示。

選項坑洞掃描:B 說每層做全域掃描,卷積操作是局部感受野而非全圖掃描,全域感知是 Transformer Self-Attention 的特性。C 把池化層說成學習高階特徵,池化的功能是降維與平移不變性,不是學習語義特徵。D 說各層學相同特徵,這違背 CNN 層次化的核心設計原則。

破題反射字:淺層邊緣紋理 → 低階特徵 / 深層語義概念 → 高階特徵 / 層次化表示 → CNN 核心設計邏輯


第 2 題

某電商平台建立商品圖片分類模型,使用自行收集的 8,000 張商品照片從頭訓練 CNN,但驗證集準確率僅達 61%,遠低於業務要求的 85%。資料科學家懷疑是訓練資料量不足所致。AI 規劃師建議改用遷移學習(Transfer Learning)。下列何者最能正確描述遷移學習在此情境中的核心價值與適用邏輯?

(A) 載入在 ImageNet 預訓練的 CNN 模型,凍結前段特徵提取層的權重,只微調後段分類層,讓模型保留通用視覺特徵並快速適應商品分類任務

(B) 將 8,000 張商品照片複製擴增為 80,000 張,透過大量資料擴增(Data Augmentation)讓模型從頭訓練,效果等同於在大型資料集上預訓練的遷移學習

(C) 遷移學習僅適用於來源任務與目標任務完全相同的情境,商品分類與 ImageNet 的類別不同,因此無法有效遷移特徵表示

(D) 載入預訓練模型後對所有層同步進行高學習率的全參數微調,讓模型快速遺忘原始 ImageNet 知識並重新學習商品圖片的特定視覺特徵

答案:A

深度導讀解析

正確答案:A

核心技術點:遷移學習的凍結策略與預訓練特徵的通用性

中級理論拆解:ImageNet 預訓練模型已從 120 萬張圖片學到邊緣、紋理、形狀等通用視覺特徵,這些低階特徵對商品分類同樣有效。凍結前段層保留這些通用特徵,只微調後段分類層讓模型適應新任務,大幅減少所需訓練資料量與計算成本。8,000 張從頭訓練不夠,但作為微調資料已足夠。

選項坑洞掃描:B 說資料擴增等同遷移學習,擴增只是讓模型見到更多變化,無法補充預訓練模型學到的豐富視覺知識,效果差距顯著。C 說來源與目標任務必須相同,遷移學習的核心價值恰恰是跨任務遷移,低階視覺特徵在不同分類任務間高度通用。D 說高學習率全參數微調,這會導致「災難性遺忘」,預訓練權重被破壞,效果反而更差。

破題反射字:資料量不足 → 遷移學習 / 凍結前段層 → 保留通用視覺特徵 / 災難性遺忘 → 全參數高學習率微調的風險


第 3 題

某零售業者在超市導入即時貨架缺貨偵測系統,需要同時完成兩件事:辨識畫面中有哪些商品類別,以及精確標出每個商品在畫面中的位置與邊界框(Bounding Box)。系統需在每幀 33 毫秒內完成推論。下列何者最能正確描述滿足此需求應選用的技術路線及其原因?

(A) 採用 YOLO(You Only Look Once)等單階段物件偵測架構,在單次前向傳播中同時輸出類別與邊界框,推論速度符合即時需求

(B) 採用兩階段偵測架構(如 Faster R-CNN),先生成候選區域再分類,雖然推論時間較長但邊界框精度更高,適合即時貨架偵測

(C) 採用純分類 CNN(如 ResNet),對整張貨架影像輸出商品類別列表,再由規則引擎根據類別數量推算貨架缺貨位置

(D) 採用語義分割(Semantic Segmentation)模型對每個像素進行分類,透過像素級的類別圖推算各商品的邊界框座標

答案:A

深度導讀解析

正確答案:A

核心技術點:單階段 vs. 兩階段物件偵測的速度與精度權衡

中級理論拆解:物件偵測需要同時完成「分類」與「定位」兩個子任務。兩階段架構(Faster R-CNN)先用 Region Proposal Network 生成候選框,再逐一分類,精度高但推論慢(通常 100ms 以上)。YOLO 等單階段架構將整張圖分成格子,每個格子同時預測類別與邊界框,單次前向傳播完成全部推論,現代版本可在 10ms 內完成,符合 33ms 的即時門檻。

選項坑洞掃描:B 說兩階段架構適合即時偵測,推論時間通常遠超 33ms,在即時需求下不可行。C 用純分類 CNN 無法輸出邊界框座標,只有類別資訊,規則引擎無法從類別推算位置。D 的語義分割是像素級分類,計算量更大且輸出是像素圖而非邊界框,需要後處理才能得到框座標,延遲更高。

破題反射字:即時推論 → 單階段偵測 / YOLO → 單次前向傳播輸出類別與框 / 兩階段 → 精度高但速度慢


第 4 題

某醫療影像團隊使用 CNN 訓練 X 光肺炎偵測模型,訓練集僅有 2,400 張影像,且正常樣本 1,800 張、肺炎樣本 600 張。初始模型整體準確率達 75%,但臨床醫師發現模型幾乎把所有影像都判定為正常。團隊計畫透過資料擴增(Data Augmentation)改善訓練資料品質。下列哪一組擴增策略最適合 X 光影像的醫療場景?

(A) 對肺炎樣本進行隨機水平翻轉、隨機旋轉(±15度)與亮度調整,同時對正常樣本進行欠採樣,使兩類樣本數量達到平衡

(B) 對所有訓練影像進行大角度旋轉(180度)、垂直翻轉與極端亮度調整,讓模型學習各種極端光線條件下的肺部特徵

(C) 對訓練影像套用文字浮水印與隨機裁切至 50% 大小,透過強迫模型從殘缺影像中辨識特徵來提升魯棒性

(D) 直接複製肺炎樣本三次使兩類數量相同,不做任何影像變換,讓模型透過重複學習加深對肺炎特徵的記憶

答案:A

深度導讀解析

正確答案:A

核心技術點:醫療影像資料擴增的合理性邊界與類別不平衡處理

中級理論拆解:醫療影像的擴增必須保留臨床意義。X 光片的水平翻轉和小角度旋轉(±15度)在臨床上仍然合理(人體有左右差異但不會 180 度倒置),亮度調整模擬不同曝光條件。同時對多數類(正常樣本)欠採樣,從兩個方向解決類別不平衡,比單純擴增少數類更有效。75% 準確率但全判正常,是典型的類別不平衡導致模型偏向多數類的症狀。

選項坑洞掃描:B 的 180 度旋轉與垂直翻轉在 X 光臨床上無意義(不會有倒置的肺部影像),會引入雜訊而非有效特徵。C 的文字浮水印與大幅裁切會破壞診斷關鍵區域,導致模型學到無效特徵。D 單純複製樣本不增加任何新資訊,模型只是重複記憶同樣的影像,對泛化能力毫無幫助。

破題反射字:類別不平衡 → 欠採樣 + 少數類擴增 / 醫療影像擴增 → 保留臨床意義 / 全判多數類 → 不平衡的典型症狀


第 5 題

某自駕車公司的電腦視覺系統需要在行車過程中即時辨識行人、車輛、號誌等多類物件。工程師評估後選用了錨框機制(Anchor Box)設計。下列何者最能正確描述錨框在物件偵測中的核心功能,以及它解決了什麼問題?

(A) 錨框是預先定義的一組不同長寬比與尺寸的參考框,讓模型學習預測真實物件框相對於錨框的偏移量,解決物件形狀與大小差異極大的偵測問題

(B) 錨框是在推論階段對偵測結果進行後處理的工具,透過非極大值抑制(NMS)合併重疊的預測框,確保每個物件只輸出一個最終邊界框

(C) 錨框是一種資料標註輔助工具,由標註人員在訓練資料上預先繪製候選框範圍,讓模型在訓練時只需學習框內物件的分類而不需預測座標

(D) 錨框等同於卷積層的濾波器,每個錨框對應一個特定的卷積核,專門用於偵測特定方向的邊緣特徵以辨識不同形狀的物件類別

答案:A

深度導讀解析

正確答案:A

核心技術點:錨框機制的設計動機與偵測多尺度物件的解決邏輯

中級理論拆解:自駕車場景中物件尺寸差異極大——遠處的行人可能只有 20×50 像素,近處的卡車可能佔畫面 30%。直接讓模型從零預測任意形狀的框非常困難。錨框預先定義一組覆蓋常見長寬比(1:1、1:2、2:1)與尺寸的參考框,模型只需學習預測真實框相對於最接近錨框的偏移量(dx、dy、dw、dh),大幅降低學習難度並提升對多尺度物件的偵測能力。

選項坑洞掃描:B 描述的是非極大值抑制(NMS)的功能,NMS 是後處理步驟用於去除重複框,不是錨框的定義。C 說錨框是標註工具,錨框是模型架構的組成部分,與人工標註流程無關。D 把錨框和卷積濾波器混為一談,兩者是完全不同層級的概念,錨框是偵測頭的設計,不是特徵提取的卷積核。

破題反射字:多尺度物件 → 錨框設計動機 / 預測偏移量 → 錨框的學習目標 / NMS → 後處理去重複框


還在用零散筆記備考?

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

👉 立即取得備考筆記

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
373會員
99內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
2025/10/16
建議先看完影片在做題目,效果加倍https://youtu.be/FP8g2kFMTOo
2025/10/16
建議先看完影片在做題目,效果加倍https://youtu.be/FP8g2kFMTOo
2025/10/16
建議先看完影片再考,成效更好https://youtu.be/LeaacbEw6Fc
2025/10/16
建議先看完影片再考,成效更好https://youtu.be/LeaacbEw6Fc
2025/10/15
建議看完影片再考,成效更好 https://youtu.be/ACY1IswFOJU
2025/10/15
建議看完影片再考,成效更好 https://youtu.be/ACY1IswFOJU
看更多
你可能也想看
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
本文主要介紹,如何利用VAE變分自編碼器來訓練生成圖片。 訓練集資料將採用TF影像資料庫中的fashion_mnist VAE變分自編碼器簡單介紹 •VAE(Variational Auto-Encoder)中文名稱變分自編碼器,主要是一種將原始資料編碼到潛在向量空間,再編碼回來的神經網路。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
本篇文章專注於消息傳遞(message passing)在圖神經網絡(GNN)中的應用,並以簡單的例子解釋了消息傳遞的過程和機制。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News