高品質的人類文字資料正在變得稀缺

JH Young

發佈於我想問

2026/03/13 更新2026/03/13 發佈閱讀 4 分鐘

是的，很多 AI 研究者在 2023 年之後開始討論一個問題：

AI 公司已經開始面臨「高品質訓練資料快被用完」。

這不是說「網路沒有資料了」，而是可用來訓練高品質大型語言模型（LLM）的資料正在接近上限。許多 AI 公司（如 OpenAI、Google、Anthropic）都在研究如何解決這個問題。

下面是原因。

1️⃣ 高品質文字其實沒有想像中多

整個網路雖然有數千億頁內容，但真正適合訓練 AI 的資料需要：

可讀性高
不含垃圾內容
不含大量重複
不含廣告或SEO垃圾

研究者估計：

整個網路資料 ≈ 數百TB
真正高品質資料 ≈ 10–20TB

因此當模型越來越大時，很快就會把這些資料「學完」。

2️⃣ 大模型需要極大量資料

大型模型訓練通常需要：

資料需求成長非常快。

例如：

GPT-3 的訓練資料就已經包含：

Common Crawl
Wikipedia
書籍資料
網路論壇

幾乎把公開資料掃過一遍。

3️⃣ 網路正在被 AI 生成內容淹沒

2023 之後出現一個新問題：

AI生成內容大量出現在網路上。

例如：

AI寫的文章
AI生成SEO網站
AI生成新聞摘要

如果新的模型再用這些資料訓練，就會出現問題：

「模型退化」（Model Collapse）

意思是：

AI → 生成內容
新AI → 再學這些內容
品質逐代下降

這是 AI 研究界很關注的問題。

4️⃣ 很多高品質資料開始被「付費牆」保護

AI 爆紅後，很多內容平台開始限制資料。

例如：

Reddit 開始收取資料授權費
The New York Times 對 AI 公司提起訴訟
各大出版社限制爬蟲

因為：

內容平台發現 AI 公司正在使用他們的資料。

5️⃣ 一些研究預測資料可能在 2030 前耗盡

一些研究者曾提出預測：

高品質人類文字資料
可能在 2026–2032 年之間被「用盡」。

意思不是沒有資料，而是：

可用的新高品質資料成長速度 
 < 
AI模型資料需求

6️⃣ AI 公司正在找替代方案

目前主要有幾個方向：

① 合成資料（Synthetic Data）

用 AI 生成資料來訓練 AI。

例如：

模型生成問題
模型再生成答案
人類做品質篩選

② 多模態資料

不只使用文字，還用：

圖片
影片
語音

例如：

GPT-4
Gemini

都是多模態模型。

③ 人類標註資料

雇用大量人類：

審查回答
評分
編寫訓練資料

這就是 RLHF（人類回饋強化學習）。

④ 使用程式碼資料

程式碼是：

高結構
低歧義
邏輯性強

因此像 Microsoft 和 OpenAI

都大量使用 GitHub 的資料。

🧠 一句話總結

AI 資料危機的核心是：

高品質人類知識產生速度 < AI 模型訓練需求。

因此未來 AI 發展很可能會轉向：

合成資料
多模態資料
專門建立的新資料庫

留言

sirius數字沙龍

18會員

428內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/13

許多頂級 AI 模型訓練資料中，最大的來源竟然是「PDF」

很多 AI 研究者都發現：在大型語言模型（LLM）的訓練資料中，PDF 文件其實佔了非常大的比例，有些資料集甚至超過 30%。這是因為 PDF 在知識世界裡扮演了非常特殊的角色。原因如下： 1️⃣ 世界上重要的知識很多都存成 PDF 很多高價值知識並不是在普通網頁，而是以 PDF 發佈。

2026/03/13

許多頂級 AI 模型訓練資料中，最大的來源竟然是「PDF」

2026/03/13

沒有 hallucination，就沒有真正的 AGI

「沒有 hallucination，就沒有真正的 AGI」是一種在 AI研究與認知科學中逐漸出現的觀點。它的核心意思是：真正的通用智慧（AGI）必須能想像不存在的東西，而這種能力在表面上看起來就像「幻覺」。換句話說：如果一個系統永遠只輸出確定正確的知識，它其實只是資料庫，不是真正的智慧。

2026/03/13

沒有 hallucination，就沒有真正的 AGI

2026/03/13

「幻覺」其實是創造力的來源

「幻覺其實是創造力的來源」是一個在 AI研究、認知科學、神經科學中越來越常被討論的觀點。核心意思是：能夠“生成不存在的東西”的能力，本身就是創造力的基礎。而 LLM 的 hallucination（幻覺），正是這種能力的一種表現。下面從幾個層次解釋這個觀點。一、為什麼「沒有幻覺就沒

2026/03/13

「幻覺」其實是創造力的來源

看更多

你可能也想看

26歲努力上班投資鴻海的白領女孩

AI生成影片模型 Seedance2.0震撼影視業

當市場還在討論AI聊天機器人與晶片需求時，另一條巨大的產業浪潮其實已經悄悄形成——AI生成影片。近期 Seedance2.0 的推出，讓市場再次意識到一件事： AI 不只會寫文章、生成圖片，而是正在直接改寫整個影視產業的製作方式。這不是單一技術升級，而是一場成本結構革命。

#鴻海#輝達#黃仁勳

2026/02/15

26歲努力上班投資鴻海的白領女孩

AI生成影片模型 Seedance2.0震撼影視業

#鴻海#輝達#黃仁勳

2026/02/15

法國宅媽的沙龍

如何經營自己（九）：愛情世界中的男女大不同（中）

人性天生就有這樣的反骨特性，越是輕易得來的，越不容易去保護和珍惜，反之越是不容易得到的東西，越會激發起佔有和挑戰的心理，在男女交往的過程中也是如此…

#法國宅媽學習手扎#如何經營自己#兩性關係

2020/04/24

法國宅媽的沙龍

如何經營自己（九）：愛情世界中的男女大不同（中）

#法國宅媽學習手扎#如何經營自己#兩性關係

2020/04/24

26歲努力上班投資鴻海的白領女孩

Seedance 2.0需要多少算力？鴻海會是受惠者？

AI生成影片模型正在進入「算力爆炸期」。隨著影片模型從圖片生成進化到長時序、高解析度、多角色一致性的影片生成，模型對算力的需求呈現指數成長。其中，Seedance 2.0 被市場關注的一個核心問題是：它到底需要多少算力？而這波算力需求，是否會讓鴻海精密工業成為受惠者？

#鴻海#輝達#黃仁勳

2026/02/15

26歲努力上班投資鴻海的白領女孩

Seedance 2.0需要多少算力？鴻海會是受惠者？

#鴻海#輝達#黃仁勳

2026/02/15

AI.ESG.數位轉型顧問沈重宗

🔥 2026 正式進入「代理工程」時代：當 AI 開始自己完成工作，人類工程師還剩下什麼？

🔥 2026 正式進入「代理工程」時代：當 AI 開始自己完成工作，人類工程師還剩下什麼？ 2025 年，我們見證了 Vibe Coding 的爆紅。人們開始用自然語言指揮 AI 寫程式，從「打程式碼」轉向「說需求」。而到了 2026 年，局勢再次升級──我們正式踏入「代理工程」（Agentic

#人類#工程師#程式

2026/02/14

AI.ESG.數位轉型顧問沈重宗

🔥 2026 正式進入「代理工程」時代：當 AI 開始自己完成工作，人類工程師還剩下什麼？

#人類#工程師#程式

2026/02/14

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

閒人，閒語

人工智慧時代的典範轉移：從教育重塑、產業變革到人類價值的再定義

本文深入探討 AI 如何重塑軟體工程的未來，並連結至傑文斯悖論，指出 AI 提升效率的同時反而會擴大軟體市場需求。探討了 AI 對工程師需求、高度客製化軟體、市場進入（GTM）的挑戰、AI 模型發展策略、代理人（Agents）介面演變、AI 在創意產業的角色、科學研究加速、安全思維轉變、教育與職涯策

#獨立思考#認知升級#ChatGPT

2026/02/09

閒人，閒語

人工智慧時代的典範轉移：從教育重塑、產業變革到人類價值的再定義

#獨立思考#認知升級#ChatGPT

2026/02/09

26歲努力上班投資鴻海的白領女孩

Seedance 2.0闖禍，AI影視時代正式開戰!鴻海所處的產業定位?

當AI開始能「直接生成電影」，產業競爭就不再只是科技競賽，而是整個影視產業結構的重寫。近期市場熱議的 Seedance 2.0，不只是技術突破，更像是一個訊號：AI影視時代，正式進入軍備競賽。一、為什麼說 Seedance 2.0「闖禍」？過去AI生成內容大多停留在

#鴻海#黃仁勳#伺服器

2026/02/16

26歲努力上班投資鴻海的白領女孩

Seedance 2.0闖禍，AI影視時代正式開戰!鴻海所處的產業定位?

#鴻海#黃仁勳#伺服器

2026/02/16

普普文創

【職場觀點】低代碼/無代碼開發：非技術人員也能開發工具的趨勢

隨著科技發展與人工智慧（AI）的日益普及，過去只有專業程式設計師才能完成的系統開發，如今似乎已經慢慢打破了門檻。低代碼（Low-Code）與無代碼（No-Code）開發平台的興起，讓非技術人員也能嘗試撰寫程式、整合系統，甚至打造屬於自己的工作工具。過去，若想完成一個自動化的系統，通常需要委外給專業的

#職場觀點#低代碼#無代碼

2026/02/21