我在研究台灣電商搜尋問題的時候,最好奇的一件事是:搜「搖控器」為什麼找不到「遙控器」?這明明是同一個東西,差一個注音同音字而已。
答案藏在搜尋引擎的底層邏輯裡。我不是工程師,但花了一些時間把它拆開來看,發現搜尋系統的三代技術演進,其實可以用很直覺的方式理解。
第一代:字對字比對,一個字都不能錯
第一代搜尋(BM25)的數學假設很簡單:用戶輸入的詞必須跟商品描述一模一樣。英文有空白自動斷詞,但中文沒有天然邊界。「遙控器」被切成「遙控」「控器」,「搖控器」被切成「搖控」「控器」。演算法看到「遙控」和「搖控」,認定是兩個完全無關的詞。
工程師的解法是建同義詞字典:「搖控=遙控」「蘋果15=iPhone 15」。但台灣現成的斷詞工具不懂電商語言,而詞典每週都要更新。搜尋難用往往不是演算法的極限,而是維運的貧窮。
第二代:聽懂語意,但分不清規格
向量語意搜尋能理解「想吃辣的」跟「麻辣鍋」有關,但它也會把「iPhone 15 Pro 256G」跟「512G」當成差不多的東西。
所以業界的及格線是混合搜尋(Hybrid Search):精確型號用第一代的字面比對,模糊需求用向量語意,兩軌並行。架構是開源的,但拿台灣電商語料去微調那顆向量腦,沒有人在做。
第三代:LLM 很強,但太貴
把 LLM 放進搜尋框是美好的幻想,但電商搜尋要求 200 毫秒內回應,百萬流量下每次都呼叫 LLM,成本會吃掉訂單毛利。
實際做法是把 LLM 當離線工人——淘寶的 BEQUE 框架用 LLM 離線閱讀搜尋日誌,把「送媽媽的實用禮物」改寫成「肩頸按摩儀」,再把規則部署回前兩代系統。
但真正缺的不是技術,是量測
三代技術都不是重點。台灣電商搜尋停滯近十年,最致命的是缺乏評估層——零結果率、搜尋放棄率、排序品質指標。沒有量測就沒有投資,沒有投資技術再好也只是 demo。
📌 這篇是精華版。BM25 的 bi-gram 切割細節、Hybrid Search 的權重融合機制、基礎建設四層的完整規格,請見完整版: 👉 電商搜尋技術三代拆解
完整的商業分析(為什麼搜尋一直爛、基因問題、別人怎麼突破)請見主文: 👉 我們的搜尋無所獲,是平台的商業選擇























