高品質的人類文字資料正在變得稀缺

更新 發佈閱讀 4 分鐘

是的,很多 AI 研究者在 2023 年之後開始討論一個問題:

AI 公司已經開始面臨「高品質訓練資料快被用完」。

這不是說「網路沒有資料了」,而是可用來訓練高品質大型語言模型(LLM)的資料正在接近上限。許多 AI 公司(如 OpenAIGoogleAnthropic)都在研究如何解決這個問題。

下面是原因。


1️⃣ 高品質文字其實沒有想像中多

整個網路雖然有數千億頁內容,但真正適合訓練 AI 的資料需要:

  • 可讀性高
  • 不含垃圾內容
  • 不含大量重複
  • 不含廣告或SEO垃圾

研究者估計:

整個網路資料 ≈ 數百TB
真正高品質資料 ≈ 10–20TB

因此當模型越來越大時,很快就會把這些資料「學完」。


2️⃣ 大模型需要極大量資料

大型模型訓練通常需要:

vocus|新世代的創作平台

資料需求成長非常快。

例如:

GPT-3 的訓練資料就已經包含:

  • Common Crawl
  • Wikipedia
  • 書籍資料
  • 網路論壇

幾乎把公開資料掃過一遍。


3️⃣ 網路正在被 AI 生成內容淹沒

2023 之後出現一個新問題:

AI生成內容大量出現在網路上。

例如:

  • AI寫的文章
  • AI生成SEO網站
  • AI生成新聞摘要

如果新的模型再用這些資料訓練,就會出現問題:

「模型退化」(Model Collapse)

意思是:

AI → 生成內容
AI → 再學這些內容
品質逐代下降

這是 AI 研究界很關注的問題。


4️⃣ 很多高品質資料開始被「付費牆」保護

AI 爆紅後,很多內容平台開始限制資料。

例如:

  • Reddit 開始收取資料授權費
  • The New York Times 對 AI 公司提起訴訟
  • 各大出版社限制爬蟲

因為:

內容平台發現 AI 公司正在使用他們的資料。


5️⃣ 一些研究預測資料可能在 2030 前耗盡

一些研究者曾提出預測:

  • 高品質人類文字資料
  • 可能在 2026–2032 年之間被「用盡」。

意思不是沒有資料,而是:

可用的新高品質資料成長速度 
<
AI模型資料需求

6️⃣ AI 公司正在找替代方案

目前主要有幾個方向:

① 合成資料(Synthetic Data)

用 AI 生成資料來訓練 AI。

例如:

  • 模型生成問題
  • 模型再生成答案
  • 人類做品質篩選

② 多模態資料

不只使用文字,還用:

  • 圖片
  • 影片
  • 語音

例如:

  • GPT-4
  • Gemini

都是多模態模型。


③ 人類標註資料

雇用大量人類:

  • 審查回答
  • 評分
  • 編寫訓練資料

這就是 RLHF(人類回饋強化學習)


④ 使用程式碼資料

程式碼是:

高結構
低歧義
邏輯性強

因此像 MicrosoftOpenAI

都大量使用 GitHub 的資料。


🧠 一句話總結

AI 資料危機的核心是:

高品質人類知識產生速度 < AI 模型訓練需求。

因此未來 AI 發展很可能會轉向:

  • 合成資料
  • 多模態資料
  • 專門建立的新資料庫


留言
avatar-img
sirius數字沙龍
18會員
428內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/13
很多 AI 研究者都發現: 在大型語言模型(LLM)的訓練資料中,PDF 文件其實佔了非常大的比例,有些資料集甚至超過 30%。這是因為 PDF 在知識世界裡扮演了非常特殊的角色。 原因如下: 1️⃣ 世界上重要的知識很多都存成 PDF 很多高價值知識並不是在普通網頁,而是以 PDF 發佈。
Thumbnail
2026/03/13
很多 AI 研究者都發現: 在大型語言模型(LLM)的訓練資料中,PDF 文件其實佔了非常大的比例,有些資料集甚至超過 30%。這是因為 PDF 在知識世界裡扮演了非常特殊的角色。 原因如下: 1️⃣ 世界上重要的知識很多都存成 PDF 很多高價值知識並不是在普通網頁,而是以 PDF 發佈。
Thumbnail
2026/03/13
「沒有 hallucination,就沒有真正的 AGI」是一種在 AI研究與認知科學中逐漸出現的觀點。它的核心意思是: 真正的通用智慧(AGI)必須能想像不存在的東西,而這種能力在表面上看起來就像「幻覺」。 換句話說: 如果一個系統永遠只輸出確定正確的知識,它其實只是資料庫,不是真正的智慧。
Thumbnail
2026/03/13
「沒有 hallucination,就沒有真正的 AGI」是一種在 AI研究與認知科學中逐漸出現的觀點。它的核心意思是: 真正的通用智慧(AGI)必須能想像不存在的東西,而這種能力在表面上看起來就像「幻覺」。 換句話說: 如果一個系統永遠只輸出確定正確的知識,它其實只是資料庫,不是真正的智慧。
Thumbnail
2026/03/13
「幻覺其實是創造力的來源」是一個在 AI研究、認知科學、神經科學中越來越常被討論的觀點。核心意思是: 能夠“生成不存在的東西”的能力,本身就是創造力的基礎。 而 LLM 的 hallucination(幻覺),正是這種能力的一種表現。 下面從幾個層次解釋這個觀點。 一、為什麼「沒有幻覺就沒
Thumbnail
2026/03/13
「幻覺其實是創造力的來源」是一個在 AI研究、認知科學、神經科學中越來越常被討論的觀點。核心意思是: 能夠“生成不存在的東西”的能力,本身就是創造力的基礎。 而 LLM 的 hallucination(幻覺),正是這種能力的一種表現。 下面從幾個層次解釋這個觀點。 一、為什麼「沒有幻覺就沒
Thumbnail
看更多
你可能也想看
Thumbnail
當市場還在討論AI聊天機器人與晶片需求時,另一條巨大的產業浪潮其實已經悄悄形成——AI生成影片。 近期 Seedance2.0 的推出,讓市場再次意識到一件事: AI 不只會寫文章、生成圖片,而是正在直接改寫整個影視產業的製作方式。 這不是單一技術升級,而是一場成本結構革命。
Thumbnail
當市場還在討論AI聊天機器人與晶片需求時,另一條巨大的產業浪潮其實已經悄悄形成——AI生成影片。 近期 Seedance2.0 的推出,讓市場再次意識到一件事: AI 不只會寫文章、生成圖片,而是正在直接改寫整個影視產業的製作方式。 這不是單一技術升級,而是一場成本結構革命。
Thumbnail
人性天生就有這樣的反骨特性,越是輕易得來的,越不容易去保護和珍惜,反之越是不容易得到的東西,越會激發起佔有和挑戰的心理,在男女交往的過程中也是如此…
Thumbnail
人性天生就有這樣的反骨特性,越是輕易得來的,越不容易去保護和珍惜,反之越是不容易得到的東西,越會激發起佔有和挑戰的心理,在男女交往的過程中也是如此…
Thumbnail
AI生成影片模型正在進入「算力爆炸期」。隨著影片模型從圖片生成進化到長時序、高解析度、多角色一致性的影片生成,模型對算力的需求呈現指數成長。其中,Seedance 2.0 被市場關注的一個核心問題是:它到底需要多少算力?而這波算力需求,是否會讓 鴻海精密工業 成為受惠者?
Thumbnail
AI生成影片模型正在進入「算力爆炸期」。隨著影片模型從圖片生成進化到長時序、高解析度、多角色一致性的影片生成,模型對算力的需求呈現指數成長。其中,Seedance 2.0 被市場關注的一個核心問題是:它到底需要多少算力?而這波算力需求,是否會讓 鴻海精密工業 成為受惠者?
Thumbnail
🔥 2026 正式進入「代理工程」時代:當 AI 開始自己完成工作,人類工程師還剩下什麼? 2025 年,我們見證了 Vibe Coding 的爆紅。人們開始用自然語言指揮 AI 寫程式,從「打程式碼」轉向「說需求」。而到了 2026 年,局勢再次升級──我們正式踏入「代理工程」(Agentic
Thumbnail
🔥 2026 正式進入「代理工程」時代:當 AI 開始自己完成工作,人類工程師還剩下什麼? 2025 年,我們見證了 Vibe Coding 的爆紅。人們開始用自然語言指揮 AI 寫程式,從「打程式碼」轉向「說需求」。而到了 2026 年,局勢再次升級──我們正式踏入「代理工程」(Agentic
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文深入探討 AI 如何重塑軟體工程的未來,並連結至傑文斯悖論,指出 AI 提升效率的同時反而會擴大軟體市場需求。探討了 AI 對工程師需求、高度客製化軟體、市場進入(GTM)的挑戰、AI 模型發展策略、代理人(Agents)介面演變、AI 在創意產業的角色、科學研究加速、安全思維轉變、教育與職涯策
Thumbnail
本文深入探討 AI 如何重塑軟體工程的未來,並連結至傑文斯悖論,指出 AI 提升效率的同時反而會擴大軟體市場需求。探討了 AI 對工程師需求、高度客製化軟體、市場進入(GTM)的挑戰、AI 模型發展策略、代理人(Agents)介面演變、AI 在創意產業的角色、科學研究加速、安全思維轉變、教育與職涯策
Thumbnail
當AI開始能「直接生成電影」,產業競爭就不再只是科技競賽,而是整個影視產業結構的重寫。近期市場熱議的 Seedance 2.0,不只是技術突破,更像是一個訊號:AI影視時代,正式進入軍備競賽。 一、為什麼說 Seedance 2.0「闖禍」? 過去AI生成內容大多停留在
Thumbnail
當AI開始能「直接生成電影」,產業競爭就不再只是科技競賽,而是整個影視產業結構的重寫。近期市場熱議的 Seedance 2.0,不只是技術突破,更像是一個訊號:AI影視時代,正式進入軍備競賽。 一、為什麼說 Seedance 2.0「闖禍」? 過去AI生成內容大多停留在
Thumbnail
隨著科技發展與人工智慧(AI)的日益普及,過去只有專業程式設計師才能完成的系統開發,如今似乎已經慢慢打破了門檻。低代碼(Low-Code)與無代碼(No-Code)開發平台的興起,讓非技術人員也能嘗試撰寫程式、整合系統,甚至打造屬於自己的工作工具。過去,若想完成一個自動化的系統,通常需要委外給專業的
Thumbnail
隨著科技發展與人工智慧(AI)的日益普及,過去只有專業程式設計師才能完成的系統開發,如今似乎已經慢慢打破了門檻。低代碼(Low-Code)與無代碼(No-Code)開發平台的興起,讓非技術人員也能嘗試撰寫程式、整合系統,甚至打造屬於自己的工作工具。過去,若想完成一個自動化的系統,通常需要委外給專業的
Thumbnail
你是不是每次用 ChatGPT 都要重新解釋一次需求?但其實,你可以 提前寫好專屬 Prompt(提示詞),讓 AI 一秒進入狀態,不用每次重頭開始!所以那個 Prompt(提示詞) 該怎麼寫?進來看看吧!
Thumbnail
你是不是每次用 ChatGPT 都要重新解釋一次需求?但其實,你可以 提前寫好專屬 Prompt(提示詞),讓 AI 一秒進入狀態,不用每次重頭開始!所以那個 Prompt(提示詞) 該怎麼寫?進來看看吧!
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News