首先,需要明确数据分析的步骤:
1. 明确问题
2. 理解数据
3. 数据清洗
4. 数据分析 或 构建模型
5. 数据可视化
下面我将对每个步骤进行详细展开。
一、明确问题
我希望从数据中分析出如下信息:
1、通过透视及降序排序,得到一级分类和二级分类中受欢迎的商品分类
2、不同类目的中位数和上四分位数
3、按照一级类别商品按每年相同季度的销量大小排序进行分析:
4、按照一级类别商品按每年不同季度的销量大小排序进行分析:
6、通过透视分析不同类目下男女性别的购买倾向
7、通过透视分析不同年龄段的购买倾向,后续通过婴儿年龄进行精准营销。
二、理解数据
表1:购买商品表
用户户ID:user_id为购买用户
商品编号(item_id):auction_id具体商品的skuid
商品二级分类:cat_id,是商品编号的上一层,归类商品属于那个分类
商品一级分类:cat1,商品二级分类的上一层,归类商品属于哪个大类
商品属性:property(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)
购买数量:buy_mount 商品购买数量
购买时间:day 商品购买时间
表2婴儿信息表
用户ID:user_id为购买用户跟表1中用户id一致,可以通过这个字段进行表1表2的关联分析
出生日期:birthday 婴儿出生日期,可以换算出婴儿目前的年龄,也可以关联表1购买时间换算购买商品当时婴儿的年龄,进而可以分析不同商品、类目在不同年龄段的销售情况
性别:gender 区分婴儿性别,可以分析不同商品是否有性别喜好等
三、清洗数据
1、表1和表2未发现重复值
2、表1商品属性缺144个值,由于不分析商品属性,不做处理
3、统一日期格式
操作步骤: 选中列-数据-分列-下一步-下一步-列数据格式:日期:YMD-完成
四、数据描述统计分析
1、通过透视及降序排序,得到一级分类和二级分类中受欢迎的商品分类
2、不同类目的中位数和上四分位数
中位数和上四分位数都是1,绝大部分人都是购买1件。其中小部分人为批发
3、按照一级类别商品按每年相同季度的销量大小排序进行分析:
所有类目在同一季度不同年份销量都是逐年增加的,1季度由于2015年只有截止到2月6号数据,故有相对下降忽略不计。
4、按照一级类别商品按每年不同季度的销量大小排序进行分析:
不同的一级类目四季度和三季度销量最高。
5、通过vlookup从表2中匹配出用户性别和出生日期,与表1中购买日期相减算出购买时婴儿年龄。负数为出身前购买。
6、通过透视分析不同类目下男女性别的购买倾向
得出结论,女婴(0)购买比率60.79%远大与男性的36.35%。其中,38、50014815这两个类目女婴购买量远超男婴。男婴女婴都爱买的是50008168。
7、通过透视分析不同年龄段的购买倾向,后续通过婴儿年龄进行精准营销。
0~1岁50014815购买比率奇高。50008168各个年龄段都有较高比率购买。38集中在1~2岁婴儿购买。未出生的倾向于提前采购50014815、50022520、28。