我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Swin 是為電腦視覺設計的通用模型,Swin Transformer 是一種層次化的 Transformer 架構,結合了自注意力和卷積操作來學習圖像表示,這種結構意味著模型前端的區塊從輸入圖像中提取低階特徵,而模型末端的區塊提取高階特徵。
SwinForImageClassification 模型由以下層組成:
- Convolutional Stem Layer:負責從輸入圖像中提取初步特徵
- 一系列 Swin Transformer 區塊:每個區塊由一個自注意力層、一個卷積層和一個殘差連接構成
- 分類頭:輸出輸入圖像的類別機率
如果要觀看 Swin 模型的堆疊,可以使用以下程式:
model_name = "Denis1976/autotrain-training-cifar-10-81128141660"
model = transformers.AutoModelForImageClassification.from_pretrained(model_name, use_auth_token = token)
print(model.config)
結果為:





























