Prompting 知識養成 Day11

更新 發佈閱讀 3 分鐘

第11天:多模態 Prompting (Multimodal Prompting)
(據說到多模態 Prompting 的概念算是進入高級 Prompt 工程主題的範疇了。。。)


我覺得的要點有以下:

►多模態 Prompting 定義:
加入不同類型的數據模態** 作為prompt的元素之一,引導 AI 模型生成回應的技術。
**註「模態」定義: 在 AI 領域的語境,模態指數據的表現形式或類型,包含:文字(最常見的 Prompt 形式)、圖像(靜態圖片)、音頻(聲音only)、視頻(Video)、3D 模型(三維物體的表示)、結構化數據(通常是表格形式的、依據資料架構清楚定義欄位的數據)。

相對於傳統Prompt 工程主要是文本輸入,多模態 Prompting是一種很強的能力,增加更多樣的資訊類型意味著,使 AI 能夠理解、融合及處理更多樣化資訊的能力。


多模態 Prompting 的好處:

  • 更豐富的資訊:多模態輸入可以提供更豐富的資訊量,ex 圖片勝文字。解決冗長文字token的成本。
  • 突破文字局限性: 但凡難以用純文本精確描述,透過多模態輸入(ex直接提供圖像)便能處理。
  • 拓展應用場景,包含:生成圖像、 看圖答題、視頻摘要與分析、語音音頻轉文字檔&內容分析或情感、接收複合prompt(語音指令+屏幕內容)。
  • 提升輸出質量,更符合使用者期待與需求。


多模態 AI 模型的基本運作原理

當接收指令**時,
**註:這兩者不止在接收、在輸出過程、輸出物,都能應用(就是也可以輸出不同模態結果的意思)。

Step1:多模態嵌入 (Multimodal Embeddings)
白話說明:
使不同模態的輸入標準化、統一化。
將不同模態的數據轉換為統一的、低維度的向量表示。當這些向量在同一個「向量空間」中,就能夠進行比較和關聯。例如,貓文字、貓圖片和貓叫聲,在向量空間中應該是「靠近」的。這同時也是一種資料揀選的過程,分門別類的概念。

Step2:融合 (Fusion)
白話說明:
將Step1處理過的數據,融合在一起,形成一個可以理解的綜合體(具有意義的),從而搭配文字prompting開始運作生成輸出。


多模態 AI 模型的先進使用:厲害的生成式AI 像Google Gemini、OpenAIGPT-4V,它們是「原生」的多模態模型,就是在建造之初便以多模態訓練出發,而非附加上去的。

留言
avatar-img
不是雞湯,但是又如何
4會員
514內容數
不是雞湯,但 是又如何 不是雞湯,但是 又如何
2025/07/13
第十天 - Prompt 優化與迭代原則 - 我: 我的理解如下: 1.Prompt 優化的核心原則 ▪︎ 具體:明確的動詞、限定詞;避免歧義;明確指出輸入和輸出的格式;提供具體範例 (Few-shot)。 ▪︎ 簡潔:減少不必要詞彙(降低token 成本)。TIPS:關鍵字、條列式。 ▪︎ 限
2025/07/13
第十天 - Prompt 優化與迭代原則 - 我: 我的理解如下: 1.Prompt 優化的核心原則 ▪︎ 具體:明確的動詞、限定詞;避免歧義;明確指出輸入和輸出的格式;提供具體範例 (Few-shot)。 ▪︎ 簡潔:減少不必要詞彙(降低token 成本)。TIPS:關鍵字、條列式。 ▪︎ 限
2025/07/13
Gen AI prompt 練習 25.07.13 今天的練習是由Gemini出題,試作RAG進階考量的Prompt。 -- With Gemini -- Gemini 說: 關於今天的練習與思考,我們將結合 RAG 的進階考量,設計一個模擬的 Prompt。 請設計一個 RAG 系統的「
2025/07/13
Gen AI prompt 練習 25.07.13 今天的練習是由Gemini出題,試作RAG進階考量的Prompt。 -- With Gemini -- Gemini 說: 關於今天的練習與思考,我們將結合 RAG 的進階考量,設計一個模擬的 Prompt。 請設計一個 RAG 系統的「
2025/07/12
第九天:Self-Consistency (自我一致性)概念 -- 我: 先提出我的理解: 1.Self-Consistency 應該屬於一種「多次驗證」的方式。 如同數學驗算(假設題目是5顆蘋果買6顆,請問共花了多少錢? ) 我可以用加法算一次,然後再用乘法算一次,甚至我拿已算出的答案用減法
2025/07/12
第九天:Self-Consistency (自我一致性)概念 -- 我: 先提出我的理解: 1.Self-Consistency 應該屬於一種「多次驗證」的方式。 如同數學驗算(假設題目是5顆蘋果買6顆,請問共花了多少錢? ) 我可以用加法算一次,然後再用乘法算一次,甚至我拿已算出的答案用減法
看更多
你可能也想看
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - Prompt Engineering - 67 | 多角色 Prompt 中闡述了
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - Prompt Engineering - 67 | 多角色 Prompt 中闡述了
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - Prompt Engineering - 13中,提及Prompt Engine
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 跨越了一個範圍:它涉及人工智慧科學家和工程師掌握的複雜技術;另一方
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 跨越了一個範圍:它涉及人工智慧科學家和工程師掌握的複雜技術;另一方
Thumbnail
這份筆記整理了AI常見Prompt,幫助你產生更符合需求的圖片。文章包含了比較常用的攝影詞彙、攝影風格、鏡頭、畫面光線詞彙、輔助詞彙、畫面遠近、動畫詞彙、音樂標籤等,並提供了參考資料來源。
Thumbnail
這份筆記整理了AI常見Prompt,幫助你產生更符合需求的圖片。文章包含了比較常用的攝影詞彙、攝影風格、鏡頭、畫面光線詞彙、輔助詞彙、畫面遠近、動畫詞彙、音樂標籤等,並提供了參考資料來源。
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 作為一門新興學科,與已建立的軟體工程領域有著驚人的相似之處,這種並
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Prompt Engineering 作為一門新興學科,與已建立的軟體工程領域有著驚人的相似之處,這種並
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News