【L21104】多模態人工智慧應用｜視覺語言模型、跨模態融合模擬考題

iPAS自學路

發佈於模擬題庫 & 詳解

2026/04/05 更新2026/04/05 發佈閱讀 12 分鐘

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

第 1 題

某電商平台計畫導入多模態 AI 系統，讓用戶能同時上傳商品圖片和文字描述，系統自動完成商品分類和標籤。AI 規劃師需要向管理層解釋「多模態 AI」的核心概念，以及它相較於單模態模型的優勢。下列何者最能正確描述？

(A) 多模態 AI 能同時處理並融合多種形式的輸入資訊（影像、文字、語音等），讓系統獲得比任何單一模態更豐富的語義理解；商品圖片提供視覺特徵、文字描述提供語義脈絡，兩者融合讓分類更準確

(B) 多模態 AI 是指同時訓練多個獨立的單模態模型，影像模型和文字模型分別輸出結果後用投票機制決定最終答案，每個模型各司其職互不干擾

(D) 多模態 AI 的主要優勢是計算速度，同時處理多種輸入比依序處理每種輸入節省 50% 的計算時間，適合有即時性需求的電商場景

答案：A

深度導讀解析

正確答案：A

核心技術點：多模態 AI 的跨模態融合機制與單模態的本質差異

中級理論拆解：多模態 AI 在特徵層面融合不同模態的表示，而非獨立模型的輸出投票。圖片的視覺嵌入和文字的語義嵌入在共同的向量空間對齊（如 CLIP 的對比學習），讓模型能理解「紅色 Nike 跑鞋」的圖文一致性，這是任何單模態模型無法做到的。

選項坑洞掃描：B 說是多個獨立模型投票，這是集成學習（Ensemble），不是多模態融合，多模態的核心是跨模態的特徵對齊。C 說需要 100 萬筆配對資料，遷移學習和預訓練多模態模型（如 CLIP、LLaVA）讓少量資料微調也能有好效果。D 說主要優勢是速度，多模態 AI 通常計算量更大而非更小。

破題反射字：跨模態融合 → 多模態 AI 核心機制／ CLIP → 圖文對比學習／多模態 vs. 集成 → 特徵層融合 vs. 輸出層投票

第 2 題

某醫療機構評估導入視覺語言模型（Vision-Language Model, VLM），讓醫師能用自然語言查詢病患影像（如「找出這張 X 光片中疑似肺結節的區域」）。AI 規劃師需要向委員會解釋 VLM 的運作原理，以及它與傳統影像分類模型的本質差異。下列何者最能正確描述？

(A) VLM 與傳統影像分類模型完全相同，差異只在 VLM 額外加入了語音辨識模組，讓醫師能用說話而非打字輸入查詢指令

(B) VLM 透過對比學習或跨注意力機制將影像特徵與語言語義對齊到共同嵌入空間，讓模型能理解「文字描述的視覺概念」；傳統影像分類只能輸出預定義類別（如「正常/異常」），VLM 能回應開放性的自然語言查詢

(D) VLM 在醫療場景不適用，因為醫療影像（X 光、MRI）與 VLM 的預訓練資料（網路圖片和文字）差異太大，無法透過微調讓 VLM 理解醫療影像的語義

答案：B

深度導讀解析

正確答案：B

核心技術點：VLM 的跨模態語義對齊機制與傳統分類模型的功能邊界差異

中級理論拆解：傳統 CNN 影像分類只能輸出預定義的固定類別。VLM 透過對比學習（如 CLIP：最大化配對圖文的相似度）或跨注意力（讓文字 token 關注影像的相關區域），讓影像和文字在同一嵌入空間中語義對齊，支援開放性查詢（Zero-shot 能力）。

選項坑洞掃描：A 說 VLM 只是加了語音模組，VLM 的核心是圖文語義對齊，與語音無關。C 說影像和文字完全獨立訓練，VLM 的價值恰恰在於跨模態的特徵交互，獨立訓練只是早期的雙塔模型。D 說醫療場景不適用，許多 VLM 已透過醫療資料微調成功應用於放射科報告生成等任務。

破題反射字：對比學習 → CLIP 的跨模態對齊／開放性查詢 → VLM 相較傳統分類的優勢／ Zero-shot → VLM 的泛化能力

第 3 題

某自駕車公司使用多模態感知系統融合攝影機（影像）、LiDAR（點雲）、雷達（距離/速度）三種感測器的輸入。工程師發現在大雨天氣中攝影機影像品質嚴重下降，但 LiDAR 和雷達仍正常運作。AI 規劃師評估兩種融合策略：早期融合（Early Fusion）與後期融合（Late Fusion）。下列何者最能正確描述兩種策略的差異，以及哪種更能處理單一模態品質下降的場景？

(A) 早期融合在特徵提取前就合併原始感測器資料，若攝影機品質下降則噪音直接污染整個融合特徵；後期融合讓每種感測器獨立產出預測結果後加權合併，大雨時可動態降低攝影機的權重，對單一模態品質下降更具魯棒性

(B) 早期融合比後期融合更能處理單一模態品質下降，因為早期融合在特徵層面的整合讓其他感測器能「補償」攝影機的噪音，相互修正效果更強

(D) 後期融合在所有場景下都優於早期融合，沒有任何情況下應該選擇早期融合，業界標準是所有多模態系統都使用後期融合架構

答案：A

深度導讀解析

正確答案：A

核心技術點：早期融合 vs. 後期融合的特性差異與單一模態品質下降的魯棒性

中級理論拆解：早期融合在原始資料或低階特徵層面合併，讓模型學習跨模態的低階交互，但一個模態的噪音會直接污染融合後的特徵。後期融合各模態獨立提取特徵並輸出預測，再用加權或學習型融合模組整合，大雨時攝影機的置信度（Confidence Score）下降，融合模組自動調低其權重，讓 LiDAR 和雷達主導決策。

選項坑洞掃描：B 說早期融合更能處理品質下降，早期融合讓攝影機噪音直接污染整個特徵，無法隔離單一模態的品質問題。C 說兩者效果相同，兩種融合策略對噪音的魯棒性有根本差異。D 說後期融合永遠更好，早期融合在感測器高度互補且資料品質穩定的場景，能學到更豐富的跨模態低階特徵，有其優勢。

破題反射字：後期融合 → 各模態獨立輸出再加權／早期融合 → 原始資料層合併／單一模態品質下降 → 後期融合可動態調低其權重

第 4 題

某新聞媒體集團計畫導入多模態內容審核系統，同時分析新聞文章的文字內容和配圖，偵測不當內容（如仇恨言論搭配煽動性圖片）。AI 規劃師指出，「文字單獨看沒問題、圖片單獨看沒問題，但組合在一起才形成不當內容」是多模態審核的核心挑戰。下列何者最能正確描述解決此挑戰的技術方向？

(A) 分別部署獨立的文字審核模型和影像審核模型，兩個模型都通過才允許發布；若任一模型標記為不當則拒絕，這種串聯架構能偵測到組合不當的情況

(B) 只需提高文字審核模型的靈敏度，讓它能偵測更多邊緣案例，組合不當的問題本質上是文字模型的偵測率不夠高

(D) 使用跨模態注意力機制（Cross-modal Attention）讓文字 token 能關注影像的相關區域，並讓影像特徵能參考文字語義，讓模型能理解「這段文字在這張圖片的脈絡下是否形成不當組合」

答案：D

深度導讀解析

正確答案：D

核心技術點：跨模態注意力機制解決組合語義理解問題

中級理論拆解：獨立模型無法偵測「組合才有問題」的情況，因為每個模型只看自己的模態。跨模態注意力讓文字和影像在特徵層面互相參照——「你們」這個詞在一張特定族裔的圖片脈絡下，才能被模型識別為仇恨言論的組合。這是 VLM 的核心應用場景。

選項坑洞掃描：A 說串聯兩個獨立模型，若文字和圖片單獨看都沒問題，兩個模型都會通過，組合問題無法被偵測到，這個架構根本解決不了題目描述的挑戰。B 說提高文字模型靈敏度，組合問題的本質是跨模態語義，單純提高文字靈敏度會大幅增加誤報。C 說超出 AI 能力，現代 VLM 已能處理此類組合語義問題，LLaVA、GPT-4V 等模型都有此能力。

破題反射字：組合語義 → 需要跨模態特徵交互／ Cross-modal Attention → 文字參照影像、影像參照文字／獨立模型串聯 → 無法偵測組合問題

第 5 題

某零售集團評估是否導入多模態 AI 購物助理，讓用戶能拍攝街上看到的衣服照片，系統自動找出平台上相似的商品。AI 規劃師在提案中需要說明此系統的技術實現路徑，以及需要克服的主要挑戰。下列何者最能正確描述此「以圖搜圖加語意理解」應用的技術架構？

(A) 此應用只需要傳統的影像相似度搜尋（如感知雜湊），計算查詢圖片和商品資料庫的像素級相似度，找出最相似的商品圖片，不需要任何多模態或語言模型技術

(B) 此應用需要：視覺編碼器將查詢圖片轉為嵌入向量、向量資料庫儲存所有商品圖片的嵌入向量、ANN 近似最近鄰搜尋找出相似商品；若進一步支援「找類似但顏色不同的款式」則需要加入文字條件的跨模態查詢能力

(D) 此應用需要先讓 AI 用語音描述圖片中的衣服特徵，再用語音辨識轉為文字，最後用文字搜尋引擎查詢商品，整個流程繞過影像直接用文字搜尋

答案：B

深度導讀解析

正確答案：B

核心技術點：以圖搜圖的向量嵌入架構與跨模態條件查詢的擴展能力

中級理論拆解：現代以圖搜圖的標準架構：視覺編碼器（如 CLIP 的影像塔）將圖片轉為稠密嵌入向量 → 向量資料庫（Pinecone、Weaviate）儲存所有商品嵌入 → ANN 搜尋找到最近鄰商品。跨模態擴展讓用戶能輸入「和這件衣服一樣的款式但要藍色」，將圖片嵌入和文字嵌入融合後再搜尋，這正是 CLIP 對比學習的核心應用場景。

選項坑洞掃描：A 說像素級相似度搜尋，感知雜湊對拍攝角度、光線、背景的變化極度敏感，在真實拍照場景完全不實用，語義嵌入才能做到風格相似的搜尋。C 說人工客服，這不是 AI 系統，偏離題目的技術實現問題。D 說先語音描述再文字搜尋，這增加不必要的中間步驟且損失視覺細節，也不是多模態 AI 的標準做法。

破題反射字：以圖搜圖 → 視覺嵌入 + 向量資料庫 + ANN ／ CLIP → 圖文語義對齊的預訓練模型／跨模態條件查詢 → 圖片 + 文字條件融合搜尋

還在用零散筆記備考？

這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好，考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。

iPAS自學路｜AI應用規劃師備考筆記與考點解析模擬題庫 & 詳解

留言

iPAS自學路｜AI應用規劃師備考筆記與考點解析

372會員

97內容數

職場資深管理職，非資訊本科，一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航，專為非本科上班族設計的通勤時間備考工具。

iPAS自學路｜AI應用規劃師備考筆記與考點解析的其他內容

2026/04/04

【L21203】AI 風險管理｜偏見、可解釋性、監管合規模擬考題

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道第 1 題某銀行導入 AI 自動化貸款審核系統，法遵部門要求在正式上線前完成「AI 風險評估」。AI 規劃師需要識別此系統的主要風險類別。下列哪一組風險分類最能完整涵蓋此場景的核心風險？ (A) 演算法偏見風險（

2026/04/04

【L21203】AI 風險管理｜偏見、可解釋性、監管合規模擬考題

2026/04/02

【L23301】數據準備與特徵工程｜特徵選擇、編碼、資料不平衡處理、SMOTE 模擬考題

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

2026/04/02

【L23301】數據準備與特徵工程｜特徵選擇、編碼、資料不平衡處理、SMOTE 模擬考題

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

2026/04/01

【L23203】深度學習原理與框架｜CNN、LSTM、Transformer、注意力機制模擬考題

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

2026/04/01

【L23203】深度學習原理與框架｜CNN、LSTM、Transformer、注意力機制模擬考題

建議先看完對應教學影片再作答，效果加倍。 👉 YouTube 教學頻道

看更多

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

CCChen的AI學習分享

掌握 iPAS AI 應用規劃師考照精華用 NotebookLM 打造學習引擎，考試升職輕鬆過關 (CCChen線上)

嗨我是CCChen 分享最新推出的課程訊息掌握 iPAS AI 應用規劃師考照精華用 NotebookLM 打造學習引擎，考試升職輕鬆過關 🎓 講師：CCChen 陳正健 📅 線上首播時間：2025/12/10 (三) 14:00–16:00 🎥 課程平台：城邦學習學院 �

#CCChen#學習#iPASAI應用規劃師

2025/11/12

CCChen的AI學習分享

掌握 iPAS AI 應用規劃師考照精華用 NotebookLM 打造學習引擎，考試升職輕鬆過關 (CCChen線上)

#CCChen#學習#iPASAI應用規劃師

2025/11/12

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

CCChen的AI學習分享

iPAS AI應用規劃師中級考試資料整理(二)CCChen

嗨我是CCChen 已通過3/22 iPAS AI應用規劃師初級第一場測試預計參加5/17 iPAS AI應用規劃師中級第一場測試關於中級的準備步驟: 一先將相關考試資料確認清楚二再將各科目評鑑重要知識點列出三針對主題-項目-內容核心重點-關鍵知識點

#分享#學習#iPASAI應用規劃師

2025/04/19

CCChen的AI學習分享

iPAS AI應用規劃師中級考試資料整理(二)CCChen

#分享#學習#iPASAI應用規劃師

2025/04/19

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11