AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/29 更新2025/01/29 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Token，無論模型是編碼-解碼器、僅編碼器或僅解碼器，都是如此，此外，數據集看起來是否足夠好來進行訓練也是如此，如果 Tokenization 過程失敗，即使只是部分失敗，我們的 Transformer 模型也會錯過關鍵的 Token。

我們看到，原始數據集可能足夠用於標準語言任務來訓練 Transformer 模型，然而，我們發現即使預訓練的 Tokenizer 已經處理過十億個單詞，它只會為遇到的詞彙創建一小部分字典，就像我們一樣，Tokenizer 捕捉到它所學語言的精髓，並只記住那些最重要且經常使用的詞彙，這種方法對於標準任務運行良好，但在處理特定任務和詞彙時會產生問題。

我們探討了 Sentence 和 Word Tokenizer，以了解文本序列如何被分解成 Sentence 和Word，我們回顧了幾種 Sentence 和 Word Tokenization 方法，Sentence 和 Word Tokenizer 對許多自然語言處理任務都有用，某些情況下還可用於預處理訓練 Transformer 模型的數據集，然而，在大規模語料庫上，它們會生成大量詞彙表，從而減慢 Transformer 模型的訓練過程，因此，我們探索了 Subword Tokenizer，例如Unigram 語言模型分詞法、SentencePiece、Byte Pair Encoding 和 WordPiece，我們重點關注了 WordPiece 分詞器，深入研究了Token ID 的映射。

Tokenization 的技術需要在保留訊息和優化計算性能之間取得平衡，必須選擇適合你的任務和模型的方法。

從 AI說書 - 從0開始 - 281 | 第十章引言到 AI說書 - 從0開始 - 307 | Token ID 映射品質管控，我們完成書籍：Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024 第十章說明。

以下附上參考項目：

Colin Raffel et al., 2019, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer: https://arxiv.org/pdf/1910.10683.pdf
Gensim: https://radimrehurek.com/gensim/intro.html

以下附上額外閱讀項目：

Hiraoka et al., 2023, Tokenization Tractability for Human and Machine Learning Model: An Annotation Study: https://arxiv.org/abs/2304.10813

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

2025/01/25

AI說書 - 從0開始 - 305 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，今天來談論 Toke

2025/01/25

AI說書 - 從0開始 - 305 | Token ID 映射顯示

看更多

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Learn AI 不 BI

AI說書 - 從0開始 - 47

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 41中，提及 Transformer 的 Encoder 架構如下圖所示：此外我已經在AI說書 - 從0開始 - 42中，

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 47

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 49

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。再度回到 Transformer 架構中的 Encoder 部分，如下圖所示：我現在手上有的素材如下： Embedding 訓練方式：AI說書 - 從0開始

#AI#ai#PromptEngineering

2024/06/25

Learn AI 不 BI

AI說書 - 從0開始 - 49

#AI#ai#PromptEngineering

2024/06/25

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11