Llama 是 Meta 所發佈的大型語言模型(Large Language Model,LLM),在訓練過程中使用了大量的資料。就 Meta 所述,他們只使用公開或是開源的資料,包括:
資料名稱占比 內容英文網頁資料67%2017年到2020年期間從 Common Crawal 所獲取的英文網頁資料,並刪除重複的資料、移除非英文的網頁,以及過濾品質不佳的內容。另外,也會捨棄未被維基百科引用的網頁。C4資料集15%C4 資料集為 Google 所發佈,同樣源自於 Common Crawl 的網頁資料,主要依賴一些簡單的規則來過濾內容,例如網頁中是否有標點符號、單詞和句子的數量等。Github程式碼4.5%只保留以 Apache、BSD 和 MIT 這些開源軟體授權條款所發布的專案。使用簡單的規則來過濾品質不佳的程式碼,並刪除完全相同的程式碼檔案。維基百科4.5%2022 年 6 月至 8 月期間,使用拉丁字母或西里爾字母(較常使用在前蘇聯國家)的維基百科內容。移除了超連結、註解和其他格式。Gutenberg和Books34.5%納入兩個書籍合集,並刪除內容重複度超過90%的書籍:1. 「古騰堡計畫」(Gutenberg Project):內容皆為著作權過期,已經屬於公領域的經典書籍。
2. 「Books3」:有許多著作權爭議的公開資料集。ArXiv論文2.5%移除論文第一節之前的所有內容和參考書目,並刪除註解。Stack Exchange問答2%Stack Exchange 是一系列的問答網站,每一個網站包含不同領域的問題,知名的 Stack Overflow 即是其中一份子。Meta 保留了 28 個最大網站的資料,移除文字中的 HTML 標籤,並依照回答的得分(從高到低)進行排序。
以上資料來自 Meta 公開發表的論文:LLaMA: Open and Efficient Foundation Language Models (2023 年 2 月)
雖然 Meta 刻意使用公開的資料集來訓練 Llama 模型,並將其開源,但並非沒有著作權的爭議。已有多位作者因為 Meta 使用 Books3 資料集訓練 AI 而提出著作權訴訟。雖然此訴訟是針對 Llama 2模型,但 Llama 模型的訓練資料也包含了 Books3 資料集。
另外,Llama 模型主要以英文訓練而成,其他語言的比例則不得而知。雖然 Meta 沒有公布詳細資訊,但其下一代的 Llama 2 模型,則知道英語占了 89.7%,其餘則皆在 0.2% 以下。中文佔 0.13%,但推估絕大部分為簡體中文。

另一種 Llama 訓練。 Image: Flickr





















