AI說書 - 從0開始 - 296 | 各 Tokenizer 之展示

2025/01/15 更新2025/01/15 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

延續 AI說書 - 從0開始 - 295 | 各 Tokenizer 之優勢與安裝安裝的各種 Tokenizer，我們來展示其用處：

Sentence Tokenization

其將文字分割成單獨的句子，它將段落或文件分解為句子單元，展示如下：

text = "This is a sentence. This is another one."
sentences = sent_tokenize(text)
print("Sentence Tokenization:") 
print(sentences)

結果為：

Word Tokenization

其將序列 (即句子和文字) 分解為單字，它檢測標點符號和空格，例如引號和換行符號，展示如下：

sentence = "This sentence contains several words."
words = word_tokenize(sentence)
print("Word Tokenization:") 
print(words)

結果為：

Regular Expression Tokenization

其使用正規表示式，因此可以自訂函數來定義規則和模式，展示如下：

tokenizer = RegexpTokenizer(r'\w+')
text = "Let's see how to tokenize a sentence."
tokens = tokenizer.tokenize(text)
print("Regular Expression Tokenization:") 
print(tokens)

結果為：

r'\w+' 補充說明如下：

\w 是正規表達式中的一個預定義字符類，它匹配單詞字符，而單詞字符包含大寫英文 A 至 Z、小寫英文 a 至 z、數字 0 至 9 以及符號「 _ 」
+ 是量詞，表示「一個或多個」前面的元素，也就是說 + 表示匹配至少一個單詞字符，匹配的字符數不限
r 是 Python 的「原始字符串」語法，它告訴 Python 不要對反斜線 \ 進行轉譯處理，而是將其直接傳遞给正規表達式引擎

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第十章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章中，我們測量了 Tokenization 對 Transformer 模型後續層的影響，Transformer 模型只能關注堆疊的嵌入層和位置編碼子層中的 Tok

2025/01/29

AI說書 - 從0開始 - 308 | 第十章額外閱讀

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。想要控管 Token ID 映射的品質，有鑑於此，先定義，先定義 Tokenizer： model_name = 'bert-base-uncased' token

2025/01/28

AI說書 - 從0開始 - 307 | Token ID 映射品質管控

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 304 | WordPiece Tokenization 介紹與偵測講 WordPiece Tokenizer，而 AI說書 - 從

2025/01/27

AI說書 - 從0開始 - 306 | Token ID 映射顯示

看更多

你可能也想看

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11