AI說書 - 從0開始 - 300 | Unigram Language Model Tokenization 訓練展示

2025/01/19 更新2025/01/19 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Unigram 語言模型分詞由 Google 開發，它使用 Subword 單元進行訓練，並會丟棄不常見的單元，Unigram 語言模型 Tokenization 是隨機的，因此對同一輸入不一定會產生相同的 Tokenization 結果，相反地，Byte Pair Encoding (BPE) 是非隨機的，對於相同的輸入總是會產生相同的輸出 Tokenization 結果。

以下示範，首先載入必要依賴包：

from tokenizers import Tokenizer
from tokenizers.models import Unigram
from tokenizers.trainers import UnigramTrainer 
from tokenizers.pre_tokenizers import Whitespace

接著輸入範例文本：

corpus = [ "Subword tokenizers break text sequences into subwords.", 
           "This sentence is another part of the corpus.", 
           "Tokenization is the process of breaking text down into smaller units.", 
           "These smaller units can be words, subwords, or even individual characters.", 
           "Transformer models often use subword tokenization." ]

再進行 Tokenizer 設定並進行訓練：

tokenizer = Tokenizer(Unigram([]))
tokenizer.pre_tokenizer = Whitespace()
trainer = UnigramTrainer(vocab_size = 5000)
tokenizer.train_from_iterator(corpus, trainer)

接著檢視結果：

output = tokenizer.encode("Subword tokenizers break text sequences into subwords.") 
print(output.tokens)

結果為：

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

看更多

你可能也想看