Hashing Encoding (雜湊編號)又稱 Feature Hashing(特徵哈希)

更新 發佈閱讀 2 分鐘

Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。

Feature Hashing的原理:

對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位置。

在得到的索引位置上對向量值進行累加(可用+1或+/-1進行碰撞抵消)。

這樣避免了維護完整的大字典,節省記憶體,且能處理非常大且稀疏的特徵空間。

缺點是會發生哈希碰撞,不同特徵可能映射到相同索引,但通常碰撞對性能影響有限。

Feature Hashing的應用:

常用於自然語言處理(NLP)的文字特徵向量化。

大規模數據流或在線學習,因為無需維護全字典。

也用於多任務學習、稀疏矩陣壓縮、深度學習的嵌入向量初始化等。

優點

快速且節省記憶體。

無需手動管理詞彙表或特徵字典。

適合大規模和動態特徵空間。

簡單比喻:

Feature Hashing就像用定長的信箱收信,所有郵件(特徵)按地址(哈希)被放到固定數量的信箱中,部分不同信件可能放在同一信箱(碰撞),但整體有效管理郵件。

總結:

Feature Hashing是一種利用哈希函數將大規模、高維類別或文本特徵映射成固定長度數值向量的技巧,實現快速、節省記憶體並適用於大數據場景。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
偏差(Deviation)、方差(Variance)、誤差(Error)三者的定義與差異如下: 偏差是指每一個數據值與其平均值之間的差異,是個別數據點距離中心的距離,會有正負值且總和必為零。為了衡量數據的離散程度,不直接用偏差而用偏差平方的平均值即方差。 方差是偏差平方的平均值,代表數據分布的變
2025/09/03
超參數調優是指在機器學習中,通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定,且不通過模型訓練自動學習的參數,如學習率、批次大小、樹的深度等。 常用的超參數調優方法: 1. 網格搜尋(Grid Search) • 對預定的超參數範圍進行系統遍歷,嘗試所有組合,找到表
2025/09/03
超參數調優是指在機器學習中,通過尋找最佳組合的超參數值來提升模型性能的過程。超參數是指在訓練前需設定,且不通過模型訓練自動學習的參數,如學習率、批次大小、樹的深度等。 常用的超參數調優方法: 1. 網格搜尋(Grid Search) • 對預定的超參數範圍進行系統遍歷,嘗試所有組合,找到表
2025/09/03
交叉驗證(Cross-Validation)是一種評估和選擇機器學習模型的重要方法,透過將數據集分割成多個子集,多次訓練和驗證模型,來獲得對模型泛化能力更可靠的估計。 常見交叉驗證方法: 1. k折交叉驗證(k-Fold Cross-Validation) • 將數據分成k個大小相近的子集
2025/09/03
交叉驗證(Cross-Validation)是一種評估和選擇機器學習模型的重要方法,透過將數據集分割成多個子集,多次訓練和驗證模型,來獲得對模型泛化能力更可靠的估計。 常見交叉驗證方法: 1. k折交叉驗證(k-Fold Cross-Validation) • 將數據分成k個大小相近的子集
看更多
你可能也想看
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
高中數學主題練習—對數方程式
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
承繼上一篇我所提到的劇本,我今天意識到「標籤」,其實就是一個簡化版、濃縮版的劇本 什麼是標籤? 像 MBTI、XX症、XX學校畢業的,都是一個標籤 他的詞彙很短,但背後蘊含了大量的價值觀 (應該說,蘊含了大量言談者所「認為」的價值觀)
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News