大型視覺模型

2024/12/07 更新2024/12/07 發佈閱讀 2 分鐘

前言

許多年前已經有許多研究使用影像處理方法來生成文字，如圖像描述和視覺問答。傳統上，這類系統依賴於物體檢測網路作為視覺編碼器來捕捉視覺特徵，然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法，即擴展預訓練的通用語言模型，使其能夠處理視覺訊號。本文大致將這些視覺語言模型（VLMs）分為四類：

將圖像轉換為可與標記嵌入共同訓練的嵌入特徵。
學習良好的圖像嵌入，可作為凍結的、預訓練語言模型的前綴。
使用特別設計的交叉注意力機制將視覺訊息融入語言模型的層中。
在不進行任何訓練的情況下結合視覺和語言模型。

聯合圖片和文字訓練

將視覺訊息融入語言模型的一種直接方法是將圖像視為普通文字標記，並在文字和圖像的聯合表示序列上訓練模型。具體來說，圖像被分割成多個較小的區塊，每個區塊在輸入序列中被視為一個「標記」。VisualBERT（Li等人，2019年）將文字輸入和圖像區域同時輸入BERT，使其能夠通過自注意力機制發現圖像和文字之間的內部對齊關係。

文字-圖像交叉注意力融合機制

為了更有效地將視覺資訊融入語言模型的不同層中，我們可以考慮一種特別設計的交叉注意力融合機制，以平衡文字生成能力和視覺資訊的混合。VisualGPT（Chen等人，2021年）採用了一種自適應的編碼器-解碼器注意力機制，以便使用少量的圖片-文字資料快速適應預訓練的語言模型。

Reference

https://arxiv.org/abs/2102.10407
https://arxiv.org/abs/1908.03557

留言

Kiki的沙龍

88會員

141內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

自己在家組Ollama大語言模型伺服器

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/20

建立人工智慧代理人實務指引

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

看更多

你可能也想看

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

#模型#影像#背景

2024/07/03

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28