我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Meta (前稱為 Facebook) 於 2023 年 7 月 18 日發佈了 Llama 2,當時 Touvron 等人在論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》中介紹了這一模型,同一天,Hugging Face 宣佈他們已與 Meta 合作,並且 Llama 2 已可在其平台上使用。
Llama 2 可應用於翻譯、聊天、問答、摘要、創意寫作等多種用途,訪問權限需要通過 Meta Llama 網站取得:https://ai.meta.com/resources/models-and-libraries/llama-downloads/
Llama 2 與 Llama 1 的兩個主要區別,可概括如下:
- 上下文長度從 2048 個標記增加到 4096 個標記,這是 Transformer 模型的一項關鍵功能,可使注意力層能夠處理文本中的長期依賴關係
- 多頭注意力將注意力計算分成多個頭部,每個頭部關注序列中的不同部分,然後將這些頭部的結果結合起來生成單一的注意力權重,然而,這對記憶體的需求較高,因為每個頭部都需要在記憶體中存儲 Keys 和 Values

























