叮当之前主要是做增长方向的,平时工作中主要基于问题做数据分析,大部分时候都是怎么快怎么来。 很少有各种工具,各种分析方法全来一遍的,所以本次借分析“淘宝用户行为数据集”为案例,梳理一下自己的数据分析技能。
https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
一、分析流程和方法
1.1 数据分析类型
在没有很明确问题或问题很多很复杂的情况下,直接看杂乱的源数据不仅效率很低,也很难得到有价值的信息。
1.2 数据分析的两个典型场景
二、淘宝用户行为分析
2.1 解读元数据
数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括四种:点击商品详情页、购买商品、将商品放入购物车、收藏商品)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。 本数据集包含:用户数量987994;商品数量4162024;商品类目数量9439;所有行为数量100150807
2.2 选择分析方法
2.3 数据清洗
2.3.1数据预处理:
数据导入:由于整体数据集有100W+条数据,导入太慢,本次仅导入10W条分析 添加列名:数据导入时默认使用第一行数据作为列名,由于本数据集没有列名,需要添加
2.3.2缺失值清洗:
2.3.3格式内容清洗:
timestamps字段是时间戳字符类型,而后面要做存留分析和用户活跃时间段需要用到时间戳中的日期字段和时间字段,在这里需要提前分下列。
2.3.4逻辑错误清洗
剔除不在本次分析范围的数据
2.4 描述分析
2.4.1这个数据集中用户的日活跃和周活跃时间有什么规律吗?
从“时间戳“字段中抽取出“日期”和“小时”的数据,创建一个“活跃时间”字段,并从“行为类型”中用分组方式把用户的“浏览”“收藏”“加购物车”“购买”行为抽离出来,组成一个视图表,导出到Excel中用透视表分析用户的日活跃规律和周活跃规律。
增加活跃时间字段
查询用户 活跃时间分布,并创建视图
是否是用户增长带来的?
正常工作职场工作者的睡前时间,996的应该也下班啦~
2.4.2在当日活跃的用户次日,三日,四日……还有多少活跃?
用户存留的分析可以分为“新用户存留”和“活跃用户存留” 新用户存留一般指:新注册用户在一定时间周期内还会不会再登录 活跃用户存留需要根据产品类型和用户场景选择“关键行为”和选择“时间周期” -关键行为:淘宝作为购物网站,用户浏览,收藏,加购,购买商品与交易行为高度相关都可作为关键行为。 -时间周期:淘宝拥有海量的SKU,基本可以满足用户各方面的需求,理论上用户每天都有购买需求,时间周期可以按天。 SO,实际上这个问题就是在求,数据集第一日在APP有关键行为的用户在第二天,第三天……还会继续在APP中有关键行为的用户占比 我们需要先列出每用户每天及当天后面又活跃的日期,用于后面求次日存留,三日存留…… 之后按日期对用户进行分组,并抽取之后9天依然活跃的用户数量 最后用活跃用户表中后续活跃用户除首日活跃数量乘100加%号
-
用户增长:从2017年11月15日致2017年12月3日,活跃用户新增38% -
存留增长:从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。
假设随时间增长的留存率提升来源于新dau提升策略的优化,后续存留的提升来源于召回策略的优化。
2.4.3用户从浏览到购买的整体转化率怎么样?
将数据集中按不同用户,不同商品维度进行分组获得某一用户行为对某一商品不同行为的数据,然后对“用户行为漏斗表”中的浏览,加购物车,收藏,购买行为进行分组统计。
2.4.4用户从浏览到购买的路径是怎么样子的?
穷举所有可能的用户路径,引用“用户行为漏斗表”视图,计在数据中点击行为大于0,购买行为大于0,其他两项为0,则判定本用户购买路径为:点击—购买,其他路径同理,多次查询并用Excel表记录查询数据,用户PowerBI桑基图做可视化。
以上转化率等于起始路径到购买的转化
2.4.5平台主要给用户推送什么商品?
虽然我们没法直接从数据中找到平台推送的数据,但作为平台流量倾斜的商品,浏览量一般都会比其他商品的浏览量高一些,我们可以引用“用户行为漏斗表”视图统计浏览量前100的商品及其类目。
——是否是用于淘宝流量分配规则的原因造成的?(假设淘宝的规则是给所有商品分配的初始流量是一样的,后期这些商品中那些商品转化率高就给哪些商品更多曝光。)
——这个几个类目商品类型是否是高频刚需类型的呢?
2.4.6用户喜欢什么商品?
找高转化率的商品(销量高的有可能只是低价或者流量大)
是否是由于用户直接从购物车或者商品收藏直接复购,未点击商详?
是否是由于淘宝是根据“同一类目下的高转化商品”给用户做推荐的?
2.4.7怎么判断哪些是高价值用户 ?
RFM模型是3个指标的缩写,最近一次消费时间(R),消费频率(F),消费金额(M) 然后给这三个指标根据价值分5个等级 ,进行打分计算分值和平均值,然后根据分值与平均值对比,分出“高”“中”“低”,综合进行用户分层。
-R:根据用户最近一次的购买时间与2017年12月3日之间的差值,判断用户最近一次消费时间间隔。 -F:将数据集中用户在2017年11月25日至2017年12月3日9天时间内的购买次数作为消费频率 -M:由于本数据集中未包含购买金额字段,暂时排除此指标。
关于打分标准:不同业务的用户消费频率,消费金额,精细化运营策略与成本……都是不同,一般常用”分位数“建立打分标准,由于SQL并不是专业得统计分析工具,计算分位数较为复杂,本次仅使用最大值和最小值的区间初略建立规则。 分位数:是指在统计学中把所有数值由小到大排列并分成几等份,取处于对应几个分割点位置的数值。
消费时间间隔:在1~8区间内四等分 消费频率:由于人工 浏览时发现很少有超过20次购买的,故消费频率在20以内四等分
-查询各类用户数量
由于缺失了商品价格部分的数据,本模块暂时没有分析结论。
2.5 诊断分析
如:假设一个页面的UV(浏览人数)比PV(浏览次数)还高,那这个数据质量肯定是有问题的
2.5.1诊断分析结论
正常:结合描述分析4中的活跃用户的增长。
正常:周六周日为休息日,用户有更多时间来刷淘宝,反映在数据上就是活跃度的增加。
正常:用户在这个时间段有空闲,996的都下班啦~
还需验证:
如果是由于新注册用户或者老用户召回策略带来的增长符合常识,具体还需结合新注册用户数据和用户召回策略数据做验证。
不符合常识:因为从长期来看用户都是会流失的,只是生命周期长短问题,而从淘宝的用户行为来看同批用户的存留数据竟然随着时间的增加而增加。 假设场景可能是这样的:用户小A注册了淘宝APP,第二天就不再登录了,而第三天收到了淘宝的推荐提醒(APP消息,短信……)在消息中发现了自己喜欢的商品,而且还有优惠下单买了,第四天又收到了淘宝的消息,还是自己喜欢的…… 这里的具体数据还需要结合用户生命周期运营的策略和数据做验证。
正常,根据之前了解到的电商数据,多种客单价的商品(几十~几千)在一起,整体转化率在2%~3%之间,当然具体还需要结合历史的同比,环比数据取看。
正常:从流量的角度,每多一个步骤就会多一些用户流失这个符合常识。
待验证: 假设淘宝会给高转化的爆款商品更多的曝光,商品浏览量呈金字塔分布是正常的。
还需验证: ——抽取购买购买次数判断这个几个类目商品类型是否是高频刚需类型的呢?
不正常: 还需验证:是否是由于用户直接从购物车或者商品收藏直接复购,未点击商详?
还需验证: 是否是由于淘宝是根据“同一类目下的高转化商品”给用户做推荐的?
2.5.2假设与验证
-引用“商品转化率视图”查询排名前5的商品转化率
-对比同类目的其他商品转化率
抽取这几个类目的商品某买频次数据验证
查询转化率超过1的商品的用户行为数据
给浏览量TOP100的商品和转化率TOP100的商品做匹配看其中重合的商品有多少。
三、结论
路径1:浏览→购买:转化率1.45% 路径2:浏览→加购物车→购买:转化率0.33 路径3:浏览→收藏→购买:转化率0.11% 路径4:浏览→收藏→加购物车→购买:转化率0.03%
文章评论