Meta 使用了那些資料來訓練 Llama 模型？

2025/08/03 更新2024/04/19 發佈閱讀 3 分鐘

Llama 是 Meta 所發佈的大型語言模型（Large Language Model，LLM），在訓練過程中使用了大量的資料。就 Meta 所述，他們只使用公開或是開源的資料，包括：

資料名稱占比 內容英文網頁資料67%2017年到2020年期間從 Common Crawal 所獲取的英文網頁資料，並刪除重複的資料、移除非英文的網頁，以及過濾品質不佳的內容。另外，也會捨棄未被維基百科引用的網頁。C4資料集15%C4 資料集為 Google 所發佈，同樣源自於 Common Crawl 的網頁資料，主要依賴一些簡單的規則來過濾內容，例如網頁中是否有標點符號、單詞和句子的數量等。Github程式碼4.5%只保留以 Apache、BSD 和 MIT 這些開源軟體授權條款所發布的專案。使用簡單的規則來過濾品質不佳的程式碼，並刪除完全相同的程式碼檔案。維基百科4.5%2022 年 6 月至 8 月期間，使用拉丁字母或西里爾字母（較常使用在前蘇聯國家）的維基百科內容。移除了超連結、註解和其他格式。Gutenberg和Books34.5%納入兩個書籍合集，並刪除內容重複度超過90%的書籍：
1. 「古騰堡計畫」（Gutenberg Project）：內容皆為著作權過期，已經屬於公領域的經典書籍。
2. 「Books3」：有許多著作權爭議的公開資料集。ArXiv論文2.5%移除論文第一節之前的所有內容和參考書目，並刪除註解。Stack Exchange問答2%Stack Exchange 是一系列的問答網站，每一個網站包含不同領域的問題，知名的 Stack Overflow 即是其中一份子。Meta 保留了 28 個最大網站的資料，移除文字中的 HTML 標籤，並依照回答的得分（從高到低）進行排序。

以上資料來自 Meta 公開發表的論文：LLaMA: Open and Efficient Foundation Language Models （2023 年 2 月）

雖然 Meta 刻意使用公開的資料集來訓練 Llama 模型，並將其開源，但並非沒有著作權的爭議。已有多位作者因為 Meta 使用 Books3 資料集訓練 AI 而提出著作權訴訟。雖然此訴訟是針對 Llama 2模型，但 Llama 模型的訓練資料也包含了 Books3 資料集。

另外，Llama 模型主要以英文訓練而成，其他語言的比例則不得而知。雖然 Meta 沒有公布詳細資訊，但其下一代的 Llama 2 模型，則知道英語占了 89.7%，其餘則皆在 0.2% 以下。中文佔 0.13%，但推估絕大部分為簡體中文。

另一種 Llama 訓練。 Image: Flickr

留言

IP聊天室

9會員

180內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/04/19

Meta 使用了那些資料來訓練 Llama 2 模型？

Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數，其他語言則皆低於 0.2%，中文則佔了 0.13%。擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models

2024/04/19

Meta 使用了那些資料來訓練 Llama 2 模型？

2024/04/18

「訓練資料集 Infiniset」是什麼？

Infiniset 資料集包含了約 1.56 兆個單詞，大小為 750 GB。這個資料集的組成非常多樣化，涵蓋了不同形式和主題的內容，例如技術性主題到日常對話，讓 LaMDA 模型能夠學習廣泛的知識，並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA（L

2024/04/18

「訓練資料集 Infiniset」是什麼？

2024/04/18

「C4 資料集」是什麼？

C4（Colossal Clean Crawled Corpus）資料集是由 Google 所發佈，用於訓練人工智慧（AI）模型的大型資料集，其中包含了大量的網路文字資料，讓演算法能夠更好地理解人類的語言並進行自然語言處理（Natural Language Processing，NLP）。C4 資料

2024/04/18

「C4 資料集」是什麼？

看更多

你可能也想看

JayRay 的沙龍

【資料分析】Pandas 基礎操作語法彙整

pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上，並為操縱數值表格和時間序列，提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件，由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原

#數據分析#資料分析#python

2024/07/31

JayRay 的沙龍

【資料分析】Pandas 基礎操作語法彙整

#數據分析#資料分析#python

2024/07/31

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

虹靈御所 × 元壹宇宙

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

[深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇

本文主要介紹，如何利用GAN生成對抗網路來訓練生成圖片。利用tensorflow，中的keras來建立生成器及鑑別器互相競爭訓練，最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo

#GAN#生成對抗網路#生成器

2024/07/25

螃蟹_crab的沙龍

[深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇

#GAN#生成對抗網路#生成器

2024/07/25

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

螃蟹_crab的沙龍

[深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇

延續上一篇訓練GAM模型，這次我們讓神經網路更多層更複雜一點，來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇資料集分割處理的部分在延續上篇文章，從第五點開始後修改即可，前面都一樣訓練過程，比較圖是不是CNN的效果比MLP還要好，

#CNN的GAN模型#Python#深度學習

2024/07/26

螃蟹_crab的沙龍

[深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇

#CNN的GAN模型#Python#深度學習

2024/07/26

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11