一、CV 五大任務怎麼選?
任務類型 | 快速記憶 | 常見應用 | 核心重點 |
影像分類 (Image Classification) | 這張圖「是」什麼? | 商品歸類、醫療影像初步判斷 | 只給全圖一張標籤(Label) |
物件偵測 (Object Detection) | 東西「在哪裡」? | 車牌辨識、工廠局部瑕疵定位 | 輸出類別 + 邊界框(Bounding Box) |
語意分割 (Semantic Segmentation) | 畫出「類別」的輪廓 | 自駕車街景理解(道路/天空/行人) | 不分個體,畫面上所有單車都是同一個顏色 |
實例分割 (Instance Segmentation) | 畫出「每一個體」的輪廓 | 多目標辨識、精密零件自動組裝 | 能精確區分單車1號與單車2號 |
影像生成 (Image Generation) | 憑空「創造」或「轉換」影像 | 設計輔助、虛擬資料擴增 | 結合多模態與擴散模型 (Diffusion Models) |
🥊 易混淆概念與差異分析
易混淆一:語意分割 vs. 實例分割
- 差異在哪裡:
- 語意分割:只管「類別」,不管「個體」。畫面上如果有三台單車,它只會把這三個區塊全部塗成代表「單車」的同一種顏色。
- 實例分割:不僅要分「類別」,還要切分「個體」。它能精確標示出單車 1 號、單車 2 號、單車 3 號(通常結合像素遮罩與實例 ID)。
- 規劃視角:如果在規劃精密機械的自動化組裝防呆系統時,需要確認畫面上「每一個」獨立的螺絲或齒輪是否都安裝到位,就必須使用實例分割。
易混淆二:影像分類 vs. 物件偵測
- 差異在哪裡:
- 影像分類:回答「這張圖是什麼?」(輸出單一或多個類別標籤)。
- 物件偵測:不僅回答「是什麼」,還要回答「在哪裡?」(輸出類別,外加 Bounding Box 座標)。
- 規劃視角:判斷工廠傳送帶上的產品整體是良品還是瑕疵品,用影像分類;如果要精確框出瑕疵發生在產品的哪個局部位置,則用物件偵測。
二、演算法進化史
- CNN:可以自動提取特徵,解決了人工特徵提取的痛點。
- YOLO:速度快,強調即時性(適合邊緣運算)。
- ResNet:導入「殘差結構」,解決深層網路梯度消失。
- ViT (Vision Transformer): 引進了 NLP 的 Transformer 架構來處理影像。
- CLIP:多模態的王者,實現了圖文跨模態理解。
三、關鍵名詞與評估指標
1. 模型評分怎麼看?
- IOU (Intersection over Union): 交集除以聯集。判斷「預測框」與「真實標註框」重疊程度的標準。通常大於 0.5 算及格。數值越接近 1,代表越準!
- Top-5 Error: 多分類任務專用。只要真實答案落在模型預測機率最高的前五名內,就算答對。
2. 資料前處理不能省!
- 資料擴增 (Data Augmentation):透過翻轉、旋轉、裁切等方式增加資料多樣性。目的:對抗過擬合(Overfitting),提升模型的泛化能力。
3. 最強分割模型
- SAM (Segment Anything Model): Meta 推出的強大零樣本(Zero-shot)影像分割模型,強調普適性。
四、實務落地的三大風險
- 邊緣運算 (Edge Computing) 的硬體限制
● 常見誤解:把精度最高、最龐大的模型直接塞進廠房的監視器裡。
● 正確觀念:邊緣設備資源有限,實務上通常需要在「準確度」、「延遲」與「資源消耗」之間取得平衡,並採用較輕量化或經過最佳化的模型(例如 YOLO 的輕量版本、MobileNet 等)。 - 資料漂移 (Data Drift)
● 常見風險:模型剛上線很準,幾個月後準確度下降。因為產線燈管老化、攝影機角度偏移,導致輸入資料的特徵變了。
● 應對策略:導入 MLOps 持續監控影像品質與模型效能。 - 偏見 (Bias) 與隱私法規
● 常見風險:訓練資料不平衡(例如某種膚色資料太少)導致誤檢率飆高。未經同意收集人臉違反 GDPR 等個資法。
● 應對策略:使用臉部模糊化(去識別化)、確保資料集族群分佈平衡。
透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容參考 iPAS 官方學習指引,由 AI 整理產製














