「訓練資料集 Books1」 是什麼?

更新 發佈閱讀 2 分鐘

OpenAI 在 2020 年的論文中提到,GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫(Project Gutenberg)的完整內容,包含約 7 萬本書籍。

vocus|新世代的創作平台

Image: Flickr (CC BY 2.0 DEED)

  • Books1 在 GPT-3 訓練中佔了 8% 的權重,對應到大約 12 億個 tokens(可視為字詞)。研究認為,這與古騰堡計畫整理的標準語料庫(Standardized Project Gutenberg Corpus)的 tokens 數量相當。
  • 古騰堡計畫專門收集著作權已過期的書籍,將其數位化後免費提供給公眾。這些書籍主要是一些經典作品,並涵蓋各種文學形式,如小說、詩歌、戲劇等。因此,古騰堡計畫的內容在著作權上相對無爭議,且提供了大量長篇、連貫內容,為訓練 AI模型的理想材料。

總結來說,雖然 OpenAI 的沒有正式公開Books1 的內容,但基於既有線索,可以合理推測是來自古騰堡計畫。

留言
avatar-img
IP聊天室
9會員
180內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/04/17
Common Crawl 是一個非營利組織,目標是建立一個大規模、公開可用的網路爬蟲資料集,以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。 Source: Institutt for informatikk 自 2008 年開始,Common Crawl 的網路爬蟲會依據網址清
Thumbnail
2024/04/17
Common Crawl 是一個非營利組織,目標是建立一個大規模、公開可用的網路爬蟲資料集,以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。 Source: Institutt for informatikk 自 2008 年開始,Common Crawl 的網路爬蟲會依據網址清
Thumbnail
2024/04/12
「轉化性使用」(Transformative Use)是美國著作權法中「合理使用(Fair Use)」原則下的一個重要概念。 美國最高法院在 1994 年的 Campbell 一案中,首次採納了轉化性使用的概念:「不只是取代原著作,而是有其他目的或不同性質,對原著作增加新的表達、意義或訊息,而改變
Thumbnail
2024/04/12
「轉化性使用」(Transformative Use)是美國著作權法中「合理使用(Fair Use)」原則下的一個重要概念。 美國最高法院在 1994 年的 Campbell 一案中,首次採納了轉化性使用的概念:「不只是取代原著作,而是有其他目的或不同性質,對原著作增加新的表達、意義或訊息,而改變
Thumbnail
2024/04/11
在2023年初,知名科技新聞網站 CNET 因大量使用人工智慧(AI)產生的文章而引發爭議。 據 Futurism 報導,CNET 自 2022 年 11 月起,開始在網站上發布由 AI 撰寫的文章(大多與理財相關),並以「CNET Money Staff」作為署名發表。 Image
Thumbnail
2024/04/11
在2023年初,知名科技新聞網站 CNET 因大量使用人工智慧(AI)產生的文章而引發爭議。 據 Futurism 報導,CNET 自 2022 年 11 月起,開始在網站上發布由 AI 撰寫的文章(大多與理財相關),並以「CNET Money Staff」作為署名發表。 Image
Thumbnail
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News