【數據分析】資料集Amazon Prime Userbase Dataset探索

更新 發佈閱讀 11 分鐘

資料集來源 : kaggle

對於電商來說,訂閱模式已成為許多企業的重要運營方式,訂閱資料不僅記錄了用戶的購買行為,也反映了用戶對平台的使用頻率與互動習慣。訂閱方式的變化可能會影響Amazon Prime 平台的營收甚至未來的成長,因此若能掌握影響訂閱模式的因素,預測使用者的偏好,能夠更精準的行銷、針對偏好進行產品或服務的優化,以促進業務的增長。

預測使用者訂閱模式

目標:透過預測模型,找出影響訂閱方案的變數,提高客戶的保留率

流程:

1.資料預處理:清理和準備資料集以進行分析。

2.EDA:透過視覺化和統計來了解資料

3.模型訓練:評估不同的機器學習模型,選擇表現最佳的模型

4.超參數優化 : 找出模型最佳的超參數


1.資料預處理

step1 載入資料集

從kaggle取得公開資料

step2 資料前處理

處理遺漏值:此專案無缺失值

轉換資料格式:將日期格式轉換為數值;將object格式轉換為int或float

step3 建立baseline1

這裡使用原始格式為數值的特徵來訓練基本模型,提供一個簡單的參考點,用於評估後續新增的特徵或模型的效果是否有明顯提升

以下使用Decision Tree來訓練,優點是解釋性高,對於少量資料表現穩定

vocus|新世代的創作平台



從上面結果可知,在僅選擇少數特徵的前提下,透過基本模型,可以得到約5成的準確度。

因此若後續對資料的處理讓準確度低於51%,則代表該處理對提升預測的準確度是沒有幫助的


2.EDA資料探索

資料探索:可以初步認識資料,並確認資料間的關係

目的:由於要進行使用者訂閱傾向的預測,因此需要查看其他欄位跟訂閱計畫(Subscription Plan)之間的關係,並將結果視覺化


  • 檢查重複值
    檢查是否有重複值,如果有則將其移除
vocus|新世代的創作平台







  • 觀察Feedback/Ratings和Subscription Plan的關係

使用密度圖,以連續平滑的曲線表示變數的分布

vocus|新世代的創作平台

可觀察到Annual和Monthly的分布大致相同,其中Annual比Monthly略高一些,評分結果集中在3至5之間





  • 觀察Customer Support Interactions和Subscription Plan的關係
vocus|新世代的創作平台

Annual和Monthly的分布大致相同,用戶的互動次數落在0到10次之間




  • 查看類別欄位跟 Subscription Plan 的關係

透過直方圖來觀察以下欄位

vocus|新世代的創作平台

Payment Information中顯示的支付方式大致相同



vocus|新世代的創作平台


Gender代表性別比例差不多




vocus|新世代的創作平台


Renewal Status中兩者間差異不大




vocus|新世代的創作平台

訂閱方案選擇Annual的人似乎稍微多一點點





vocus|新世代的創作平台

選擇不同訂閱方案的人購物喜好似乎不太相同,可以繼續觀察




vocus|新世代的創作平台


對於喜好部分各有些許不同,可以繼續探索




vocus|新世代的創作平台


在Devices Used部分差異不大





vocus|新世代的創作平台

Engagement Metrics也無顯著差異





從上面的分析可以發現,無論是年訂閱還是月訂閱,目前的特徵在兩者之間沒有顯著的差異,接下來可以使用特徵工程的方式來新增特徵,並觀察新的特徵在兩者間是否有差異

特徵工程

這個步驟想在對這個資料集做兩件事

1.建立新特徵 : 查看不同月份的訂閱是否對Subscription Plan有不同的偏好

  • 從'Membership Start Date'取出月份,並轉換格式


2.將類別欄位轉換成數值:由於模型只接受數值類型的資料,因此非數值型的資料都需先做轉換或移除

  • Ordinal Encoding

將類別轉為有順序性的數值,適合有順序性的類別

帶有順序性的'usage frequency'、'engagement metrics'使用此方式

  • One-Hot Encoding

為每個類別生成一個二進位欄位,不會引入類別間的隱含順序關係

其餘沒有順序關係的欄位使用此方法

查看相關性

皮爾森積相關係數用於度量兩組數據的變量X和Y之間的線性相關的程度,越趨近於0代表兩者間的相關性越小

這裡會計算相關性後繪製成熱力圖,選擇跟Subscription Plan相關性較大的特徵後,再進行下一步的模型訓練

vocus|新世代的創作平台


vocus|新世代的創作平台


從相關係數可以得知,Subscription Plan跟其他特徵的相關性並不高

可以從這裡推測這份資料集可能無法得到準確的預測結果

3.建立模型

選擇相關性較高的特徵來訓練,並將特徵拆分成測試集和訓練集

step1 訓練模型

選擇跟Baseline1相同得模型Decision Tree,來查看加入先前的非數值欄位作為特徵後,是否能提高準確度,結果如下:

vocus|新世代的創作平台

選擇的特徵經過訓練後可以得到約53%的準確率,表示這份資料集似乎不適合用來進行預測


step2 加入新特徵

加入之前建立的新特徵'月份'後,模型同樣選擇Decision Tree,重新訓練並查看結果

vocus|新世代的創作平台

加入新的特徵後準確度沒有提升,因此將該特徵移除


step3 加入其他模型

利用其他模型進行分析與Decision Tree比較,使用以下模型

logistic regression

SVM

Random Forest

KNN

vocus|新世代的創作平台

從上面結果可觀察到,表現最好的模型為Decision Tree,且所有模型的準確度都落在50%左右,接下來將調整超參數,來觀察是否能提高預測結果


4.超參數調整

step1 設定超參數

利用Random Search隨機選擇參數組合進行嘗試,找出上述模型中相對較佳的組合


step2 訓練模型並進行預測

對每個優化後的模型進行訓練,並得到以下準確度

vocus|新世代的創作平台

經過優化後,可以看到多數模型的預測準確度都有些許的提升,而最佳的模型依然為Decision Tree,其準確度約53.8%

從預測結果來看,5成多的準確度代表此份資料集不適用於訂閱模式的預測


資料分群

訂閱資料記錄了用戶與平台的互動內容,是理解用戶行為、價值和需求的資源。透過分群分析,可以將不同訂閱模式和用戶行為分成多個具有特徵的群體,從而實現以下目標:

  1. 識別高價值用戶:找出那些頻繁續訂或選擇高價訂閱計劃的核心客戶,進一步提供優惠或專屬服務。
  2. 預測流失風險:定位訂閱即將到期且活躍度下降的用戶,主動推送優惠,提高續訂率。
  3. 精準行銷:根據不同用戶群的需求特徵,制定個性化行銷策略,提升促銷活動的效果。
  4. 優化產品策略:分析用戶的偏好,為產品升級和服務改進提供數據支撐。


觀察以下欄位定義

  • User ID : 使用者ID
  • Name : 名字
  • Email Address : 電子郵件地址
  • Username : 暱稱
  • Date of Birth : 生日
  • Gender : 性別
  • Location : 住址
  • Membership Start Date : 訂閱起日
  • Membership End Date : 訂閱訖日
  • Subscription Plan : 訂閱方案
  • Payment Information : 付款方式
  • Renewal Status : 續訂方式
  • Usage Frequency : 使用頻率
  • Purchase History : 購買紀錄
  • Favorite Genres : 購物偏好
  • Devices Used : 登入/使用設備
  • Engagement Metrics : 參與程度
  • Feedback/Ratings : 評分
  • Customer Support Interactions : 客服互動次數

由上面欄位可以觀察到,資料涵蓋了具體的行為時間記錄、行為頻率、具有商業價值的行為,因此接下來會採取RMF模型來做資料分群

RFM 分析的標準定義:

依據購買頻率 (Frequency)

最近一次購買時間 (Recency)

購買金額 (Monetary)

在這份資料中,給予三個指標定義如下:

  • 活躍度(Recency):使用Membership End Date,距離到期日月久,給予較高的分數
  • 忠誠度(Frequency):Usage Frequency中使用頻率越高,給予越高的分數
  • 消費金額(Monetary):Subscription Plan中,年訂閱分數較高,月訂閱分數較低


FRM分析

利用直方圖,查看三個指標在不同等級各自所占的比例:

vocus|新世代的創作平台







vocus|新世代的創作平台







vocus|新世代的創作平台






定義顧客分群

  • 將指標數值轉化為0或1,使其呈現二元的狀態
    • 定義Recency超過3的為1,其他為0
    • 定義Frequency是3的為1,其他為0
    • 定義Monetary是3的為1,其他為0


  • 組合欄位並定義顧客分類
    • 111: 最重要的顧客
    • 110: 未來有消費潛力的顧客
    • 101: 消費頻率較低的顧客
    • 100: 新顧客
    • 011: 近期流失的重要顧客
    • 010: 普通顧客
    • 001: 流失掉的高消費顧客
    • 000: 非客群
  • 根據組合後的欄位來替客戶進行分級
    • 111: High
    • 110: High
    • 101: Medium
    • 100: Medium
    • 011: Medium
    • 010: Medium
    • 001: Low
    • 000: Low
  • 查看分群後不同級別的顧客所佔的比例,並繪製成長條圖
vocus|新世代的創作平台







將顧客重新分群後,可以觀察到客戶分級後屬於Medium比例最高,這群人是應該要重點發展的對象,讓High的比例增加
High的比例最低,這些客戶可能需要加強客戶關係的維持,讓其願意持續使用本服務

LOW的比例偏高,代表有需多客戶屬於非活躍用戶,可能要檢討是什麼原因讓使用者申訂閱後卻使用意願不高


觀察加入不同特徵後的資料分布

查看在不同年齡,不同群的客戶所佔得數量

vocus|新世代的創作平台







  • 可觀察到用戶數量在30歲後隨年齡遞減,但70歲後反而遞增
  • 年輕用戶似乎更常瀏覽網站,高價值客戶比例較高而低價值比例較低
  • 90歲以上的使用者人數反而上升,這跟我們平時了解到的有些不同,後續可以觀察原因為何,是否為異常值
  • 跟20歲以下比例極低,可以嘗試培養這些年輕用戶成為會員






留言
avatar-img
Yen的數據探索筆記的沙龍
0會員
2內容數
你可能也想看
Thumbnail
文章描述了觀察者如何從銷售數量的日線圖中,以及通過歸納統計和經濟理論進行解讀,透過時間統計分析消費者的行為特徵,以及角度數據如何關注臺灣市場的消費。
Thumbnail
文章描述了觀察者如何從銷售數量的日線圖中,以及通過歸納統計和經濟理論進行解讀,透過時間統計分析消費者的行為特徵,以及角度數據如何關注臺灣市場的消費。
Thumbnail
在資料分析領域中,購物籃分析又稱關聯分析,從大量的交易資料中,探勘出在資料間具有相關性的隱藏規則與商業知識。
Thumbnail
在資料分析領域中,購物籃分析又稱關聯分析,從大量的交易資料中,探勘出在資料間具有相關性的隱藏規則與商業知識。
Thumbnail
在保險產品管理中,儀表板是解析數據的關鍵工具,它提供豐富的指標和功能,讓保險產品經理能更好地了解市場趨勢、客戶行為和產品表現。以下是「Power Insight產品智慧助理」操作儀表板的指南,幫助理解各項功能和指標,以及如何解決保險產品經理常遇到的問題。 日期區間選擇 日期區間選擇是儀表板中
Thumbnail
在保險產品管理中,儀表板是解析數據的關鍵工具,它提供豐富的指標和功能,讓保險產品經理能更好地了解市場趨勢、客戶行為和產品表現。以下是「Power Insight產品智慧助理」操作儀表板的指南,幫助理解各項功能和指標,以及如何解決保險產品經理常遇到的問題。 日期區間選擇 日期區間選擇是儀表板中
Thumbnail
在交易千萬別見樹不見林 中示範如何在同一張圖表上加入不同週期的行情走勢,本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫 的程式進行改寫,讓程式可以讀取到多週期的K線資料。 在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式,來存取圖表中的數列
Thumbnail
在交易千萬別見樹不見林 中示範如何在同一張圖表上加入不同週期的行情走勢,本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫 的程式進行改寫,讓程式可以讀取到多週期的K線資料。 在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式,來存取圖表中的數列
Thumbnail
潛在類別模式(latent class modeling, LCM)和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別/剖面/混合分析操作1:找出最佳組數
Thumbnail
潛在類別模式(latent class modeling, LCM)和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別/剖面/混合分析操作1:找出最佳組數
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
chatgpt說得一口好資料科學跟股票分析,我就來實際看看他會寫什麼出來
Thumbnail
chatgpt說得一口好資料科學跟股票分析,我就來實際看看他會寫什麼出來
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
交易回測是執行各種交易重要一環,這裡主要採用自行開發的Excel回測工具進行歷史資料模擬各種市場情境,包括事件觸發、MSIC季度調整、聯準會升降息以及技術籌碼面的變化。透過反覆的回測過程,可以深入瞭解各種情況下的交易策略執行情況,並逐步優化其交易策略。這有助於建立交易的紀律性,
Thumbnail
交易回測是執行各種交易重要一環,這裡主要採用自行開發的Excel回測工具進行歷史資料模擬各種市場情境,包括事件觸發、MSIC季度調整、聯準會升降息以及技術籌碼面的變化。透過反覆的回測過程,可以深入瞭解各種情況下的交易策略執行情況,並逐步優化其交易策略。這有助於建立交易的紀律性,
Thumbnail
1. 時間序列的基本概念 常見的時間序列分解方式有以下兩種: 1-1. 加法模型(Additive Model): Y(t)=Trend(t)+Cycle(t)+Seasonal(t)+Irregular(t) 適用於季節性的規模基本保持不變,不隨原始序列水平增減而變化(如圖1(a))。
Thumbnail
1. 時間序列的基本概念 常見的時間序列分解方式有以下兩種: 1-1. 加法模型(Additive Model): Y(t)=Trend(t)+Cycle(t)+Seasonal(t)+Irregular(t) 適用於季節性的規模基本保持不變,不隨原始序列水平增減而變化(如圖1(a))。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News