當代主要搜尋引擎架構分析

更新 發佈閱讀 6 分鐘

不論是百度(Baidu)微軟 Bing,還是早期的奇摩(Yahoo!)與新浪(Sina),這些大型搜尋引擎在處理海量網頁資料時,底層的架構與核心邏輯其實大同小異。

它們同樣需要解決「海量儲存」與「毫秒級檢索」的矛盾,其解決方案可以拆解為壓縮儲存免解壓快速檢索兩個維度。

vocus|新世代的創作平台

一、 這些搜尋引擎如何將網頁資料壓縮?

搜尋引擎在爬取網頁後,會把網頁拆成兩部分儲存:網頁快照(原始 HTML)索引資料(關鍵字清單)

1. 網頁快照的通用壓縮(以百度、微軟為例)

  • 微軟 Bing:大量使用與開發高效能的壓縮演算法(如基於 LZ77 改進的演算法)。
  • 百度:針對中文網頁,百度擁有龐大的「中文動態字典」。在儲存網頁快照時,它不會重複儲存「的」、「是什麼」、「可以」等高頻詞,而是用極短的字典代碼(類似霍夫曼編碼的邏輯)來替換。
  • 通用標準:現代搜尋引擎普遍採用 Zstandard (Zstd) 或 Brotli。這些演算法可以在極快的速度下,將網頁的 HTML/CSS 壓縮到原本的 20% 以下。

2. 索引資料的壓縮:倒排索引 (Inverted Index)

這是所有搜尋引擎的通用核心。假設有 10 億個網頁包含「紫微斗數」這個詞,搜尋引擎不會在每個網頁後面寫一次這個詞,而是建立一個清單:

關鍵字「紫微」➡ [網頁ID: 4, 網頁ID: 9, 網頁ID: 15, ..., 網頁ID: 20000030]

這串網頁 ID 清單(稱為 Posting List)非常龐大,為了壓縮它,各大搜尋引擎會使用:

  • 差值編碼 (Delta Encoding):不存原始 ID,只存與前一個數字的差。原本的 [4, 9, 15] 變成 [4, 5, 6]。數字變小後,佔用的位元(Bit)大幅減少。
  • VByte (Variable Byte) 編碼:讓小的數字(如 5)只佔用 1 個位元組,大的數字才佔用更多,精準省下空間。

二、 如何在被壓縮的資料中「快速找尋關鍵字」?

如果每次使用者輸入關鍵字,搜尋引擎都要把幾百 TB 的壓縮檔「解壓縮」再尋找,伺服器絕對會當機。各大搜尋引擎的核心機密,就在於「如何在不完全解壓縮的情況下完成搜尋」。

1. 跳表(Skip List)與區塊壓縮(Block-level Compression)

搜尋引擎會把幾百萬個網頁 ID 的清單,切成無數個「小區塊」(例如每 128 個 ID 一組),並單獨壓縮。

在這些區塊之上,會建立一個類似火車時刻表的跳表(Skip List)

  • 尋找流程:當你在百度搜尋「紫微」,系統會先看跳表。跳表會告訴系統:「網頁 ID 5000 到 10000 的資料在第 45 號區塊」。
  • 系統會直接跳過前 44 個區塊(完全不解壓縮),只針對第 45 號區塊進行極小規模的解壓縮。

2. PFOR-Delta 與 SIMD 硬體加速(微軟與百度的強項)

為了追求極致速度,微軟 Bing 和百度廣泛採用了 PFOR-Delta (Patched Frame-of-Reference) 演算法與 CPU 的 SIMD(單指令流多資料流) 技術。

  • 這項技術允許 CPU 直接在壓縮狀態下,一次性對一整組網頁 ID 進行數學比對(如大於、小於、等於)。
  • 這種「硬體級」的並行處理,讓搜尋引擎能在幾微秒內過濾掉數百萬筆壓縮數據。

3. 布隆過濾器(Bloom Filter)的快速排查

在進入硬體搜尋前,新浪、奇摩等系統常使用布隆過濾器。它是一個極小的二進位矩陣(全部由 0 與 1 組成):

  • 使用者輸入關鍵字時,系統先用布隆過濾器快速勾稽。
  • 如果過濾器回傳 0,代表這整批伺服器的壓縮硬碟裡絕對沒有這個網頁,直接不讀取硬碟,省下極大的 I/O 負擔。

三、 各家搜尋引擎的側重點差異

雖然原理相通,但在實作上因為時代與技術背景而有所不同:

  • 微軟 Bing:極度依賴其強大的亞洲研究院(MSRA)技術,在硬體加速(如使用 FPGA 晶片、SIMD 指令集)與分散式架構(布署在 Azure 雲端)上做得非常激進,能夠在半壓縮狀態下進行極複雜的語意關聯搜尋。
  • 百度:作為中文搜尋龍頭,它的核心優勢在於「中文分詞與壓縮字典」。中文不像英文有空格,百度必須先把「紫微斗數命盤」切成「紫微/斗數/命盤」,再將這些詞彙對應到其高度壓縮的專利索引結構中。
  • 早期奇摩/新浪:在自主研發能力較弱的早期,多依賴開源的搜尋引擎架構(如基於 Java 的 Lucene/Solr 或 Elasticsearch)。這些開源工具底層同樣使用了上述的倒排索引與 FST(Finite State Transducer)壓縮技術。

⚠️ 重要提醒

商業機密限制:上述分析基於公開論文、技術部落格與開源實踐推導,非各公司官方架構說明

總結

不管是哪一家搜尋引擎,核心心法都是:「大化小、分區塊、建跳表、靠硬體」

它們將資料切得足夠碎並做好索引摘要,搜尋時就像查字典一樣,直接翻到特定的那一頁(區塊)去解壓縮,而其他 99.9% 的壓縮資料在整個搜尋過程中,連碰都不會被碰到。



留言
avatar-img
sirius數字沙龍
23會員
527內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/05/16
Google 這類大型搜尋引擎,並不是把整個網頁「壓成 ZIP」後再搜尋。這是一個常見的誤解。Google 並非直接搜尋「壓縮後的網頁」,而是將網頁內容擷取、結構化後,建立高度優化的索引(Index),並對索引進行壓縮與分散式儲存。搜尋時,系統是查詢索引而非原始網頁。 真正的核心是: 將網頁轉換
Thumbnail
2026/05/16
Google 這類大型搜尋引擎,並不是把整個網頁「壓成 ZIP」後再搜尋。這是一個常見的誤解。Google 並非直接搜尋「壓縮後的網頁」,而是將網頁內容擷取、結構化後,建立高度優化的索引(Index),並對索引進行壓縮與分散式儲存。搜尋時,系統是查詢索引而非原始網頁。 真正的核心是: 將網頁轉換
Thumbnail
2026/05/16
Google 搜尋引擎在處理數以千億計的網頁時,確實面臨極大的儲存與檢索壓力。要達成「既能壓縮省空間,又能快速搜尋」的目標,Google 並非使用單一技術,而是結合了倒排索引(Inverted Index)與多種編碼壓縮演算法。 Google 搜索引擎在處理網頁資料時,會先透過壓縮與索引技術降低儲
Thumbnail
2026/05/16
Google 搜尋引擎在處理數以千億計的網頁時,確實面臨極大的儲存與檢索壓力。要達成「既能壓縮省空間,又能快速搜尋」的目標,Google 並非使用單一技術,而是結合了倒排索引(Inverted Index)與多種編碼壓縮演算法。 Google 搜索引擎在處理網頁資料時,會先透過壓縮與索引技術降低儲
Thumbnail
2026/05/15
霍夫曼編碼(Huffman Coding)是一種: 「依照資料出現頻率,自動產生最佳長度位元碼」的壓縮方法。 它是: JPEG MP3 ZIP PNG MPEG 等壓縮格式的重要核心技術。 一、最直觀理解 霍夫曼編碼的核心思想: 常出現的資料 → 用短編碼 少出現的資料 →
Thumbnail
2026/05/15
霍夫曼編碼(Huffman Coding)是一種: 「依照資料出現頻率,自動產生最佳長度位元碼」的壓縮方法。 它是: JPEG MP3 ZIP PNG MPEG 等壓縮格式的重要核心技術。 一、最直觀理解 霍夫曼編碼的核心思想: 常出現的資料 → 用短編碼 少出現的資料 →
Thumbnail
看更多
你可能也想看
Thumbnail
這篇文章介紹10款支援繁體中文的AI圖片產生器,包含適用於不同使用者和需求的工具,並提供每個工具的功能、優點、免費額度等資訊,方便讀者快速找到合適的AI繪圖工具。
Thumbnail
這篇文章介紹10款支援繁體中文的AI圖片產生器,包含適用於不同使用者和需求的工具,並提供每個工具的功能、優點、免費額度等資訊,方便讀者快速找到合適的AI繪圖工具。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
Bing 和 Gemini 在處理中文圖形字(尤其是複雜的漢字)時,可能會遇到一些挑戰。這主要源於以下幾個因素: 1. 數據集與模型訓練: * 漢字的複雜性: 漢字數量龐大,且結構複雜,這對 AI 模型來說是一個巨大的挑戰。模型需要大量的訓練數據才能準確識別和生成這些字。 * 數據集的偏差:
Thumbnail
Bing 和 Gemini 在處理中文圖形字(尤其是複雜的漢字)時,可能會遇到一些挑戰。這主要源於以下幾個因素: 1. 數據集與模型訓練: * 漢字的複雜性: 漢字數量龐大,且結構複雜,這對 AI 模型來說是一個巨大的挑戰。模型需要大量的訓練數據才能準確識別和生成這些字。 * 數據集的偏差:
Thumbnail
前天,依儒冒著雨按照行程到達臺灣戲曲中心大表演廳觀看期待已久,由臺灣傳統戲劇無敵小生孫翠鳳老師、美聲小旦陳昭婷小姐領銜主演:以現代編劇手法改編、新舊並陳。
Thumbnail
前天,依儒冒著雨按照行程到達臺灣戲曲中心大表演廳觀看期待已久,由臺灣傳統戲劇無敵小生孫翠鳳老師、美聲小旦陳昭婷小姐領銜主演:以現代編劇手法改編、新舊並陳。
Thumbnail
想要在AI世界中創作漂亮的圖像嗎? 你是否也曾因主流市場的AI繪圖軟體以英文介面為主而感到困擾? 讓享知介紹給你微軟的Bing image creator。 這個軟體不僅支援中英文輸入,更是讓你從繁瑣的英文指令中解脫出來,只需用中文輸入你想要的題詞,就能輕鬆繪製出各種風格的圖像。最棒的是,它完全
Thumbnail
想要在AI世界中創作漂亮的圖像嗎? 你是否也曾因主流市場的AI繪圖軟體以英文介面為主而感到困擾? 讓享知介紹給你微軟的Bing image creator。 這個軟體不僅支援中英文輸入,更是讓你從繁瑣的英文指令中解脫出來,只需用中文輸入你想要的題詞,就能輕鬆繪製出各種風格的圖像。最棒的是,它完全
Thumbnail
我跟AI說: 「創作出一個圖案,內容是 (青花瓷配色) (可愛)( 女孩),擧著一個(白色)的牌子,身旁圍了一圈花圈,有著櫻花裝飾。」 結果就出現下面的貼圖
Thumbnail
我跟AI說: 「創作出一個圖案,內容是 (青花瓷配色) (可愛)( 女孩),擧著一個(白色)的牌子,身旁圍了一圈花圈,有著櫻花裝飾。」 結果就出現下面的貼圖
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
如何讓ChatGPT擁有連網功能,可以使用WebChatGPT、成為ChatGPT會員,以及尋找其他AI,像是Bard。探討了AI的創造性和事實性,以及如何讓AI寫出更有情感和思想的文章。作者以一種生動有趣的方式,比較了ChatGPT、Bard和自己的AI助手的回答,突顯了每種回答的風格和特色。
Thumbnail
如何讓ChatGPT擁有連網功能,可以使用WebChatGPT、成為ChatGPT會員,以及尋找其他AI,像是Bard。探討了AI的創造性和事實性,以及如何讓AI寫出更有情感和思想的文章。作者以一種生動有趣的方式,比較了ChatGPT、Bard和自己的AI助手的回答,突顯了每種回答的風格和特色。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
Binge waching 看動畫 中文劇推薦 喜歡周湯豪的朋友一定也知道這部! 英語影集推薦 台語劇最推! 家樂英語 品牌精神: 備受西方與東方教育洗禮 悟出美式極簡與中式禪學 造就簡單學英語,才不簡單的俐落美學 大道至簡 俐落速成 樂學家-家樂校 升學,成人多益英語, 企業訓練,留學
Thumbnail
Binge waching 看動畫 中文劇推薦 喜歡周湯豪的朋友一定也知道這部! 英語影集推薦 台語劇最推! 家樂英語 品牌精神: 備受西方與東方教育洗禮 悟出美式極簡與中式禪學 造就簡單學英語,才不簡單的俐落美學 大道至簡 俐落速成 樂學家-家樂校 升學,成人多益英語, 企業訓練,留學
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News