首先,需要明確數據分析的步驟:
1. 明確問題
2. 理解數據
3. 數據清洗
4. 數據分析 或 構建模型
5. 數據視覺化
下面我將對每個步驟進行詳細展開。
一、明確問題
我希望從數據中分析出如下資訊:
1、透過透視及降序排序,得到一級分類和二級分類中受歡迎的商品分類
2、不同類目的中位數和上四分位數
3、按照一級類別商品按每年相同季度的銷量大小排序進行分析:
4、按照一級類別商品按每年不同季度的銷量大小排序進行分析:
6、透過透視分析不同類目下男女性別的購買傾向
7、透過透視分析不同年齡段的購買傾向,後續透過嬰兒年齡進行精準行銷。
二、理解數據
表1:購買商品表
使用者戶ID:user_id為購買使用者
商品編號(item_id):auction_id具體商品的skuid
商品二級分類:cat_id,是商品編號的上一層,歸類商品屬於那個分類
商品一級分類:cat1,商品二級分類的上一層,歸類商品屬於哪個大類
商品內容:property(內容值可以是大小,可以是尺碼、毫升等數位,還可以指品牌等,一切可以描述商品特征的都可以稱為內容值)
購買數量:buy_mount 商品購買數量
購買時間:day 商品購買時間
表2嬰兒資訊表
使用者ID:user_id為購買使用者跟表1中使用者id一致,可以透過這個欄位進行表1表2的關聯分析
出生日期:birthday 嬰兒出生日期,可以換算出嬰兒目前的年齡,也可以關聯表1購買時間換算購買商品當時嬰兒的年齡,進而可以分析不同商品、類目在不同年齡段的銷售情況
性別:gender 區分嬰兒性別,可以分析不同商品是否有性別喜好等
三、清洗數據
1、表1和表2未發現重復值
2、表1商品內容缺144個值,由於不分析商品內容,不做處理
3、統一日期格式
操作步驟: 選中列-數據-分列-下一步-下一步-列數據格式:日期:YMD-完成
四、數據描述統計分析
1、透過透視及降序排序,得到一級分類和二級分類中受歡迎的商品分類
2、不同類目的中位數和上四分位數
中位數和上四分位數都是1,絕大部份人都是購買1件。其中小部份人為批發
3、按照一級類別商品按每年相同季度的銷量大小排序進行分析:
所有類目在同一季度不同年份銷量都是逐年增加的,1季度由於2015年只有截止到2月6號數據,故有相對下降忽略不計。
4、按照一級類別商品按每年不同季度的銷量大小排序進行分析:
不同的一級類目四季度和三季度銷量最高。
5、透過vlookup從表2中匹配出使用者性別和出生日期,與表1中購買日期相減算出購買時嬰兒年齡。負數為出身前購買。
6、透過透視分析不同類目下男女性別的購買傾向
得出結論,女嬰(0)購買比率60.79%遠大與男性的36.35%。其中,38、50014815這兩個類目女嬰購買量遠超男嬰。男嬰女嬰都愛買的是50008168。
7、透過透視分析不同年齡段的購買傾向,後續透過嬰兒年齡進行精準行銷。
0~1歲50014815購買比率奇高。50008168各個年齡段都有較高比率購買。38集中在1~2歲嬰兒購買。未出生的傾向於提前采購50014815、50022520、28。