建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某電商平台計畫導入多模態 AI 系統,讓用戶能同時上傳商品圖片和文字描述,系統自動完成商品分類和標籤。AI 規劃師需要向管理層解釋「多模態 AI」的核心概念,以及它相較於單模態模型的優勢。下列何者最能正確描述?
(A) 多模態 AI 能同時處理並融合多種形式的輸入資訊(影像、文字、語音等),讓系統獲得比任何單一模態更豐富的語義理解;商品圖片提供視覺特徵、文字描述提供語義脈絡,兩者融合讓分類更準確
(B) 多模態 AI 是指同時訓練多個獨立的單模態模型,影像模型和文字模型分別輸出結果後用投票機制決定最終答案,每個模型各司其職互不干擾
(C) 多模態 AI 只適合有大量標註資料的場景,若商品圖片和文字描述的配對標註不足 100 萬筆,就應該繼續使用單模態模型,多模態融合不會帶來效益
(D) 多模態 AI 的主要優勢是計算速度,同時處理多種輸入比依序處理每種輸入節省 50% 的計算時間,適合有即時性需求的電商場景
答案:A
深度導讀解析
正確答案:A
核心技術點:多模態 AI 的跨模態融合機制與單模態的本質差異
中級理論拆解:多模態 AI 在特徵層面融合不同模態的表示,而非獨立模型的輸出投票。圖片的視覺嵌入和文字的語義嵌入在共同的向量空間對齊(如 CLIP 的對比學習),讓模型能理解「紅色 Nike 跑鞋」的圖文一致性,這是任何單模態模型無法做到的。
選項坑洞掃描:B 說是多個獨立模型投票,這是集成學習(Ensemble),不是多模態融合,多模態的核心是跨模態的特徵對齊。C 說需要 100 萬筆配對資料,遷移學習和預訓練多模態模型(如 CLIP、LLaVA)讓少量資料微調也能有好效果。D 說主要優勢是速度,多模態 AI 通常計算量更大而非更小。
破題反射字:跨模態融合 → 多模態 AI 核心機制 / CLIP → 圖文對比學習 / 多模態 vs. 集成 → 特徵層融合 vs. 輸出層投票
第 2 題
某醫療機構評估導入視覺語言模型(Vision-Language Model, VLM),讓醫師能用自然語言查詢病患影像(如「找出這張 X 光片中疑似肺結節的區域」)。AI 規劃師需要向委員會解釋 VLM 的運作原理,以及它與傳統影像分類模型的本質差異。下列何者最能正確描述?
(A) VLM 與傳統影像分類模型完全相同,差異只在 VLM 額外加入了語音辨識模組,讓醫師能用說話而非打字輸入查詢指令
(B) VLM 透過對比學習或跨注意力機制將影像特徵與語言語義對齊到共同嵌入空間,讓模型能理解「文字描述的視覺概念」;傳統影像分類只能輸出預定義類別(如「正常/異常」),VLM 能回應開放性的自然語言查詢
(C) VLM 只是在傳統 CNN 後面串接一個語言模型,影像部分和文字部分完全獨立訓練,部署時分別執行再合併輸出,沒有任何跨模態的特徵交互
(D) VLM 在醫療場景不適用,因為醫療影像(X 光、MRI)與 VLM 的預訓練資料(網路圖片和文字)差異太大,無法透過微調讓 VLM 理解醫療影像的語義
答案:B
深度導讀解析
正確答案:B
核心技術點:VLM 的跨模態語義對齊機制與傳統分類模型的功能邊界差異
中級理論拆解:傳統 CNN 影像分類只能輸出預定義的固定類別。VLM 透過對比學習(如 CLIP:最大化配對圖文的相似度)或跨注意力(讓文字 token 關注影像的相關區域),讓影像和文字在同一嵌入空間中語義對齊,支援開放性查詢(Zero-shot 能力)。
選項坑洞掃描:A 說 VLM 只是加了語音模組,VLM 的核心是圖文語義對齊,與語音無關。C 說影像和文字完全獨立訓練,VLM 的價值恰恰在於跨模態的特徵交互,獨立訓練只是早期的雙塔模型。D 說醫療場景不適用,許多 VLM 已透過醫療資料微調成功應用於放射科報告生成等任務。
破題反射字:對比學習 → CLIP 的跨模態對齊 / 開放性查詢 → VLM 相較傳統分類的優勢 / Zero-shot → VLM 的泛化能力
第 3 題
某自駕車公司使用多模態感知系統融合攝影機(影像)、LiDAR(點雲)、雷達(距離/速度)三種感測器的輸入。工程師發現在大雨天氣中攝影機影像品質嚴重下降,但 LiDAR 和雷達仍正常運作。AI 規劃師評估兩種融合策略:早期融合(Early Fusion)與後期融合(Late Fusion)。下列何者最能正確描述兩種策略的差異,以及哪種更能處理單一模態品質下降的場景?
(A) 早期融合在特徵提取前就合併原始感測器資料,若攝影機品質下降則噪音直接污染整個融合特徵;後期融合讓每種感測器獨立產出預測結果後加權合併,大雨時可動態降低攝影機的權重,對單一模態品質下降更具魯棒性
(B) 早期融合比後期融合更能處理單一模態品質下降,因為早期融合在特徵層面的整合讓其他感測器能「補償」攝影機的噪音,相互修正效果更強
(C) 兩種融合策略在惡劣天氣下效果完全相同,差異只在計算成本,後期融合因需要訓練多個獨立模型而成本更高,應以計算效率選擇早期融合
(D) 後期融合在所有場景下都優於早期融合,沒有任何情況下應該選擇早期融合,業界標準是所有多模態系統都使用後期融合架構
答案:A
深度導讀解析
正確答案:A
核心技術點:早期融合 vs. 後期融合的特性差異與單一模態品質下降的魯棒性
中級理論拆解:早期融合在原始資料或低階特徵層面合併,讓模型學習跨模態的低階交互,但一個模態的噪音會直接污染融合後的特徵。後期融合各模態獨立提取特徵並輸出預測,再用加權或學習型融合模組整合,大雨時攝影機的置信度(Confidence Score)下降,融合模組自動調低其權重,讓 LiDAR 和雷達主導決策。
選項坑洞掃描:B 說早期融合更能處理品質下降,早期融合讓攝影機噪音直接污染整個特徵,無法隔離單一模態的品質問題。C 說兩者效果相同,兩種融合策略對噪音的魯棒性有根本差異。D 說後期融合永遠更好,早期融合在感測器高度互補且資料品質穩定的場景,能學到更豐富的跨模態低階特徵,有其優勢。
破題反射字:後期融合 → 各模態獨立輸出再加權 / 早期融合 → 原始資料層合併 / 單一模態品質下降 → 後期融合可動態調低其權重
第 4 題
某新聞媒體集團計畫導入多模態內容審核系統,同時分析新聞文章的文字內容和配圖,偵測不當內容(如仇恨言論搭配煽動性圖片)。AI 規劃師指出,「文字單獨看沒問題、圖片單獨看沒問題,但組合在一起才形成不當內容」是多模態審核的核心挑戰。下列何者最能正確描述解決此挑戰的技術方向?
(A) 分別部署獨立的文字審核模型和影像審核模型,兩個模型都通過才允許發布;若任一模型標記為不當則拒絕,這種串聯架構能偵測到組合不當的情況
(B) 只需提高文字審核模型的靈敏度,讓它能偵測更多邊緣案例,組合不當的問題本質上是文字模型的偵測率不夠高
(C) 這個問題無法用 AI 解決,組合語義(文字 + 圖片一起才有問題)超出了現有深度學習模型的理解能力,只能靠人工審核
(D) 使用跨模態注意力機制(Cross-modal Attention)讓文字 token 能關注影像的相關區域,並讓影像特徵能參考文字語義,讓模型能理解「這段文字在這張圖片的脈絡下是否形成不當組合」
答案:D
深度導讀解析
正確答案:D
核心技術點:跨模態注意力機制解決組合語義理解問題
中級理論拆解:獨立模型無法偵測「組合才有問題」的情況,因為每個模型只看自己的模態。跨模態注意力讓文字和影像在特徵層面互相參照——「你們」這個詞在一張特定族裔的圖片脈絡下,才能被模型識別為仇恨言論的組合。這是 VLM 的核心應用場景。
選項坑洞掃描:A 說串聯兩個獨立模型,若文字和圖片單獨看都沒問題,兩個模型都會通過,組合問題無法被偵測到,這個架構根本解決不了題目描述的挑戰。B 說提高文字模型靈敏度,組合問題的本質是跨模態語義,單純提高文字靈敏度會大幅增加誤報。C 說超出 AI 能力,現代 VLM 已能處理此類組合語義問題,LLaVA、GPT-4V 等模型都有此能力。
破題反射字:組合語義 → 需要跨模態特徵交互 / Cross-modal Attention → 文字參照影像、影像參照文字 / 獨立模型串聯 → 無法偵測組合問題
第 5 題
某零售集團評估是否導入多模態 AI 購物助理,讓用戶能拍攝街上看到的衣服照片,系統自動找出平台上相似的商品。AI 規劃師在提案中需要說明此系統的技術實現路徑,以及需要克服的主要挑戰。下列何者最能正確描述此「以圖搜圖加語意理解」應用的技術架構?
(A) 此應用只需要傳統的影像相似度搜尋(如感知雜湊),計算查詢圖片和商品資料庫的像素級相似度,找出最相似的商品圖片,不需要任何多模態或語言模型技術
(B) 此應用需要:視覺編碼器將查詢圖片轉為嵌入向量、向量資料庫儲存所有商品圖片的嵌入向量、ANN 近似最近鄰搜尋找出相似商品;若進一步支援「找類似但顏色不同的款式」則需要加入文字條件的跨模態查詢能力
(C) 此應用最簡單的實現方式是讓用戶上傳圖片後,由人工客服查詢商品目錄,AI 只負責將圖片傳給客服人員,不需要任何模型參與
(D) 此應用需要先讓 AI 用語音描述圖片中的衣服特徵,再用語音辨識轉為文字,最後用文字搜尋引擎查詢商品,整個流程繞過影像直接用文字搜尋
答案:B
深度導讀解析
正確答案:B
核心技術點:以圖搜圖的向量嵌入架構與跨模態條件查詢的擴展能力
中級理論拆解:現代以圖搜圖的標準架構:視覺編碼器(如 CLIP 的影像塔)將圖片轉為稠密嵌入向量 → 向量資料庫(Pinecone、Weaviate)儲存所有商品嵌入 → ANN 搜尋找到最近鄰商品。跨模態擴展讓用戶能輸入「和這件衣服一樣的款式但要藍色」,將圖片嵌入和文字嵌入融合後再搜尋,這正是 CLIP 對比學習的核心應用場景。
選項坑洞掃描:A 說像素級相似度搜尋,感知雜湊對拍攝角度、光線、背景的變化極度敏感,在真實拍照場景完全不實用,語義嵌入才能做到風格相似的搜尋。C 說人工客服,這不是 AI 系統,偏離題目的技術實現問題。D 說先語音描述再文字搜尋,這增加不必要的中間步驟且損失視覺細節,也不是多模態 AI 的標準做法。
破題反射字:以圖搜圖 → 視覺嵌入 + 向量資料庫 + ANN / CLIP → 圖文語義對齊的預訓練模型 / 跨模態條件查詢 → 圖片 + 文字條件融合搜尋
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記












