Meta 使用了那些資料來訓練 Llama 模型?

更新 發佈閱讀 3 分鐘

Llama 是 Meta 所發佈的大型語言模型(Large Language Model,LLM),在訓練過程中使用了大量的資料。就 Meta 所述,他們只使用公開或是開源的資料,包括:

資料名稱占比 內容英文網頁資料67%2017年到2020年期間從 Common Crawal 所獲取的英文網頁資料,並刪除重複的資料、移除非英文的網頁,以及過濾品質不佳的內容。另外,也會捨棄未被維基百科引用的網頁。C4資料集15%C4 資料集為 Google 所發佈,同樣源自於 Common Crawl 的網頁資料,主要依賴一些簡單的規則來過濾內容,例如網頁中是否有標點符號、單詞和句子的數量等。Github程式碼4.5%只保留以 Apache、BSD 和 MIT 這些開源軟體授權條款所發布的專案。使用簡單的規則來過濾品質不佳的程式碼,並刪除完全相同的程式碼檔案。維基百科4.5%2022 年 6 月至 8 月期間,使用拉丁字母或西里爾字母(較常使用在前蘇聯國家)的維基百科內容。移除了超連結、註解和其他格式。Gutenberg和Books34.5%納入兩個書籍合集,並刪除內容重複度超過90%的書籍:
1. 「古騰堡計畫」(Gutenberg Project):內容皆為著作權過期,已經屬於公領域的經典書籍。
2. 「Books3」:有許多著作權爭議的公開資料集。ArXiv論文2.5%移除論文第一節之前的所有內容和參考書目,並刪除註解。Stack Exchange問答2%Stack Exchange 是一系列的問答網站,每一個網站包含不同領域的問題,知名的 Stack Overflow 即是其中一份子。Meta 保留了 28 個最大網站的資料,移除文字中的 HTML 標籤,並依照回答的得分(從高到低)進行排序。

以上資料來自 Meta 公開發表的論文:LLaMA: Open and Efficient Foundation Language Models (2023 年 2 月)

雖然 Meta 刻意使用公開的資料集來訓練 Llama 模型,並將其開源,但並非沒有著作權的爭議。已有多位作者因為 Meta 使用 Books3 資料集訓練 AI 而提出著作權訴訟。雖然此訴訟是針對 Llama 2模型,但 Llama 模型的訓練資料也包含了 Books3 資料集。

另外,Llama 模型主要以英文訓練而成,其他語言的比例則不得而知。雖然 Meta 沒有公布詳細資訊,但其下一代的 Llama 2 模型,則知道英語占了 89.7%,其餘則皆在 0.2% 以下。中文佔 0.13%,但推估絕大部分為簡體中文。

vocus|新世代的創作平台

另一種 Llama 訓練。 Image: Flickr

留言
avatar-img
IP聊天室
9會員
180內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/04/19
Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數,其他語言則皆低於 0.2%,中文則佔了 0.13%。 擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models
Thumbnail
2024/04/19
Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數,其他語言則皆低於 0.2%,中文則佔了 0.13%。 擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models
Thumbnail
2024/04/18
Infiniset 資料集包含了約 1.56 兆個單詞,大小為 750 GB。這個資料集的組成非常多樣化,涵蓋了不同形式和主題的內容,例如技術性主題到日常對話,讓 LaMDA 模型能夠學習廣泛的知識,並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA(L
Thumbnail
2024/04/18
Infiniset 資料集包含了約 1.56 兆個單詞,大小為 750 GB。這個資料集的組成非常多樣化,涵蓋了不同形式和主題的內容,例如技術性主題到日常對話,讓 LaMDA 模型能夠學習廣泛的知識,並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA(L
Thumbnail
2024/04/18
C4(Colossal Clean Crawled Corpus)資料集是由 Google 所發佈,用於訓練人工智慧(AI)模型的大型資料集,其中包含了大量的網路文字資料,讓演算法能夠更好地理解人類的語言並進行自然語言處理(Natural Language Processing,NLP)。C4 資料
Thumbnail
2024/04/18
C4(Colossal Clean Crawled Corpus)資料集是由 Google 所發佈,用於訓練人工智慧(AI)模型的大型資料集,其中包含了大量的網路文字資料,讓演算法能夠更好地理解人類的語言並進行自然語言處理(Natural Language Processing,NLP)。C4 資料
Thumbnail
看更多
你可能也想看
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News