AI說書 - 從0開始 - 332 | Embedding Based Search Embedded 資料準備

LearnAI

發佈於三分鐘學AI (2)

2025/02/23 更新2025/02/23 發佈閱讀 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

回顧目前有的素材：

我們將透過以下步驟來使用 OpenAI 準備的 Embedded 資料：

收集：下載數百篇有關 2022 年奧運會的維基百科文章
區塊：將文件分割成短的、幾乎獨立的部分
嵌入：使用 OpenAI API 嵌入每個部分
儲存：將資料保存在檔案中，大型資料集應儲存在向量資料庫中，嵌入向量可以在向量資料庫中建立索引，並透過強大的搜尋功能進行存取，有多個平台提供向量資料庫服務，例如 Amazon Web Services (AWS)：https://aws.amazon.com/what-is/vector-databases/

透過以下程式載入 Embedding 數據：

embeddings_path = "https://cdn.openai.com/API/examples/data/winter_olympics_2022.csv"
df = pd.read_csv(embeddings_path)

再由 String 形式轉成 List 形式：

df['embedding'] = df['embedding'].apply(ast.literal_eval)

最後顯示一些數據來感受一下：

df

結果包含 text 與 embedding 兩個 Column：

Learn AI 不 BI三分鐘學AI (2)AI從0開始-十一章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/03/12

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。本章的重點在於，原始的 Prompt 匯入 GPT 模型可能效果不好，因此納入 Embedding 資料庫，將此 Prompt 轉成 Embedding，再將此 Emb

2025/03/12

AI說書 - 從0開始 - 346 | 第十一章額外閱讀

2025/03/10

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。整理目前手上有的素材： AI說書 - 從0開始 - 338 | Embedding Based Search 資料集描述 AI說書 - 從0開始 - 339 | E

2025/03/10

AI說書 - 從0開始 - 345 | Embedding Based Search 之群聚效果檢視

2025/03/09

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

2025/03/09

AI說書 - 從0開始 - 344 | Embedding Based Search 之 t-SNE 降維

看更多

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02