我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
本章節將涵蓋以下內容:
- 從任務無關模型到視覺模型
- ViT 視覺 Transformer
- ViT 程式
- 使用 CLIP 的文字影像視覺 Transformer
- Clip 程式
- DALL-E 1、2、3
- GPT-4V、DALL-E 3 和不同的語意關聯
- 實作 GPT-4V API
Foundation Models 基礎模型,具有兩個明顯而獨特的特性:
- 湧現性:符合基礎模型標準的 Transformer 模型能夠執行它們未經訓練的任務,這些是經過超級計算機訓練的大型模型,與許多其他模型不同,它們不是為學習特定任務而訓練的,基礎模型學會如何理解序列
- 同質化:相同的模型可以在許多不同領域中使用,並保有相同的基本架構,基礎模型能夠通過數據學習新技能,速度更快且效果比任何其他模型都好
OpenAI 的 ChatGPT 模型 (GPT-3 和 GPT-4)、Google PaLM 和 Google BERT 都是任務無關的基礎模型,這些任務無關的模型直接促成了 ViT、CLIP 和 DALL-E 模型的誕生。



















