2014阿里巴巴移动电商用户行为分析

需积分: 33 3 下载量 105 浏览量 更新于2024-07-16 收藏 1.06MB PDF 举报
“淘宝用户分析.pdf”是一份关于2014年阿里巴巴集团移动电商业务发展的报告,重点关注了用户行为数据分析。报告指出在2014年的双11促销活动中,移动端交易额占比高达42.6%,总额超过240亿元人民币,显示出移动端在电商领域的重要地位。 在分析中,数据来源于一个包含12256906条记录的CSV文件,主要包含了用户ID(user_id)、商品ID(item_id)、用户行为类型(behavior_type)、商品分类(item_category)以及日期和时间(time)等字段。用户行为类型分为四种:点击(1)、收藏(2)、加入购物车(3)和购买(4)。此外,还提供了用户经纬度编码(user_geohash),但由于存在大量缺失值,不适用于分析。 分析目标包括以下几点: 1. 研究用户在不同日期和时间的活跃程度,以了解用户行为模式。 2. 计算用户行为之间的转化率,如从点击到收藏,再到购买的转化。 3. 基于用户行为,对用户群体进行细分,以便更好地理解用户需求和偏好。 4. 探索不同商品类型与用户行为之间的关联,以优化商品推荐策略。 在进行数据分析前,需要进行数据预处理工作: 1. 由于user_geohash列有大量缺失值,因此在分析时不导入这一列。 2. 根据behavior_type字段将数据集划分为四个子集,分别对应四种用户行为。 3. 尽管数据可能存在用户重复购买的情况,但为了保持用户行为的完整性,此处不删除重复行。 4. 对所有字段进行数据类型检查,特别是时间列,需将其拆分为日期和时间两部分,便于后续分析。 5. 数据集中没有提及存在缺失值,因此无需特别处理缺失值。 6. 异常值处理通常通过四分位数来识别和处理,但在本次分析中,未计划进行这一步骤。 在完成这些预处理步骤后,可以利用统计方法和机器学习算法对数据进行深入挖掘,例如聚类分析以识别用户群体特征,关联规则学习以找出商品和行为之间的关联,以及时间序列分析以预测用户活跃趋势。通过这些方法,可以为电商平台提供用户行为洞察,进而优化运营策略,提升用户体验和销售业绩。
2022-12-23 上传
数据分析-淘宝⽤户⾏为分析 ⼀、项⽬背景和⽬的 ⼀、项⽬背景和⽬的 项⽬数据来源于,通过此项⽬学习电商数据分析的指标与数据分析的基本⽅法。 ⼆、分析维度 ⼆、分析维度 根据现有数据及分析⽬的,从四个维度进⾏分析: 第⼀个维度:⽤户购物情况整体分析 以PV、UV、平均访问量、跳失率等指标,分析⽤户最活跃的⽇期及活跃时段,了解⽤户⾏为习惯 第⼆个维度:商品购买情况分析 从成交量、⼈均购买次数、复购率等指标,探索⽤户对商品的购买偏好,了解商品的销售规律 第三个维度:⽤户⾏为转化漏⽃分析 从收藏转化率、购物车转化率、成交转化率,对⽤户⾏为从浏览到购买进⾏漏⽃分析 第四个维度:参照RFM模型,对⽤户进⾏分类,找出有价值的⽤户 三、分析正⽂ 三、分析正⽂ 分析步骤如下: 提出问题------理解数据------数据清洗------构建模型------数据可视化 (⼀)提出问题 ⽤户最活跃的⽇期及时段 ⽤户对商品有哪些购买偏好 ⽤户⾏为间的转化情况 ⽤户分类,哪些是有价值的⽤户 (⼆)理解数据 ⽤户⾏为类型⼜分为四种: pv:商品详情页pv,等价于点击 buy:商品购买 cart:商品加⼊购物车 fav:收藏 (三)数据清洗 包含数据导⼊(采⽤Navicat)、缺失值处理、⼀致化处理、异常值处理(2017.11.25到2017.12.3⽇内的数据) (四)构建模型 1.⽤户购物情况整体分析 1.1 这9天⾥PV(浏览量),返回结果是:2027221 select count(behavior_type) as 浏览量 from User_Behavior where behavior_type='pv'; 1.2 这9天⾥UV(⽤户数),返回结果是:22099 select count(distinct user_id)as ⽤户数 from User_Behavior; 1.3 平均访问量是: 2027221/22099 = 91.7 即每个⽤户平均访问了91个页⾯。 1.4 跳失率计算: 跳失率:只有点击⾏为的⽤户/总⽤户数 select count(distinct user_id) from User_Behavior where user_id not in (select distinct user_id from User_Behavior where behavior_type='fav') and user_id not in (select distinct user_id from User_Behavior where behavior_type='cart') and user_id not in (select distinct user_id from User_Behavior where behavior_type='buy'); 只有点击⾏为的⽤户数量为1253,故跳失率 = 1253/22099 = 0.0567,跳失率不⾼,说明店铺的商品详情页还是能吸引到⽤户的进⾏ 下⼀步⾏为。 1.5 每天访问量/访客数情况 select dates,count(behavior_type)as 访问量 from User_Behavior where behavior_type='pv' group by dates; 1.6 每天的访客数情况: select dates,count(distinct user_id) as 访客数 from User_Behavior group by dates; 1.7 每个时段访问量/访客数 alter table User_Behavior add column hours varchar(25) not null; update User_Behavior set hours=left(times,2); select a.hours,a.访问量,b.访客数 from (select hours,count(behavior_type)as 访问量 from User_Behavior where behavior_type='pv' group by hours)a inner join (select hours,count(distinct user_id) as 访客数 from User_Behavior group by hours)b on a.hours=b.hours; 可以看出访客数与访问量趋势⼤致⼀致,17 - 22时达到访客⾼峰,猜测是下班后进⾏购物放松。1-7时⼤多数⼈处于睡眠休息阶段故访客 与访问量较少。 1.8 不同时段成交量 select hours,count(behavior_type)as 成交量 from User_Behavi
2022-12-23 上传
数据分析案例之淘宝⽤户⾏为分析完整报告 ⼀、项⽬背景 ⼀、项⽬背景 UserBehavior为淘宝⽤户⾏为的数据集,数据集包括了2017年11⽉25⽇⾄2017年12⽉3⽇之间,有⼤约82万随机⽤户的⽤户⾏ 为(⾏为包括点击pv,购买buy,加购物车chart,收藏fav)数据。 ⼆、项⽬⽬标 ⼆、项⽬⽬标 通过对⽤户⾏为的分析,主要实现下⾯两个⽬的: 1、为客户提供更精准的隐式反馈,帮助⽤户更快速找到商品; 2、为提⾼公司的交叉销售能⼒,提⾼转化率,销售额,提升公司业绩。 三、分析思路 三、分析思路 主要从以下四个维度对⽤户⾏为进⾏分析和建议: 1、⽤户⾏为间的转化情况分析:利⽤漏⽃模型分析⽤户从商品浏览到购买整个过程中,常见的电商分析指标,确定各个环节流失率, 提出改善转化率的建议。 2、⽤户的⾏为习惯分析:利⽤pv、uv等指标,找出⽤户活跃的⽇期以及每天的活跃时间段。 3、⽤户类⽬偏好分析:根据商品的点击、收藏、加购、购买频率,探索⽤户对商品的购买偏好,找到针对不同商品的营销策略(购买 率较⾼的类⽬和产品,优化产品推荐)。 4、⽤户价值分析:找出最具有价值的核⼼⽤户群,针对这个群体推送个性化推送,优惠券或者活动。 逻辑如下: 四、数据处理 四、数据处理 主要使⽤⼯具:Navicat for MySQL,MySQL, power BI。 (⼀)准备数据 (⼀)准备数据 1、数据来源 、数据来源 阿⾥云天池: 2、将数据导⼊ 、将数据导⼊MySQL 使⽤Navicat导⼊功能,导⼊后结果如下图,这⾥会出错卡在导⼊步骤的5/8位置。 使⽤代码直接导⼊,结果如下图,未出现上述卡住现象。 3、数据理解 、数据理解 本数据主要包含了⼤概82万条数据,每⼀⾏分别表⽰⼀个⽤的⾏为,由⽤户ID(User_ID)、产品ID(Item_ID)、类⽬ ID(Category_ID)、⾏为类型(Behavior_type)、时间戳(Timestamp),⾏为类型⼜分为点击(pv)、收藏(fav)、加购物车 (chart)、购买(buy)。 (⼆)数据清洗 (⼆)数据清洗 1、 、Timestamp⼀致化处理 ⼀致化处理 Timestamp列,⽆法直接分析,需要将其划分为三列,分别为时间,⽇期,⼩时。 --添加新列,根据Date_time返回⽇期时间 --添加新列,根据Date返回⽇期时间 --添加新列,根据Time返回⼩时 2、挑出⽬标数据集 、挑出⽬标数据集 由于项⽬背景是需要对2017年11⽉25⽇⾄2017年12⽉3⽇之间⽤户⾏为数据集进⾏隐式反馈推荐问题的研究,所以需要对不在这 个时间内的数据进⾏删除。 --先检查是否有在2017-11-01和2017-11-20之间的时间值。 --删除掉这段时间以外的⾏ 3、删除重复值 、删除重复值 使⽤SQL语句发现,有出现重复字段。 全字段重复有两⾏,下⾯去重⽅法并不对全字段的奏效,我采⽤的是直接删除,删除数据仅4⾏针对现有的380万⾏数据影响较⼩。 4、缺失值处理 、缺失值处理 对所有列进⾏了计数查询后,发现'Timestamp'字段有null值,然后我们删除空值所在的列。 数据清洗完毕。 导⼊数据集⼤⼩预览: (三)数据分析 (三)数据分析 结果均为先使⽤sql分析数据,获得分析结果,然后将分析结果导出到excel或者power BI中进⾏可视化。 1、数据整体情况概述 、数据整体情况概述 a、总体uv、pv、⼈均浏览次数、成交量 b、⽇均uv、pv、⼈均浏览次数、成交量 使⽤power BI处理数据后将其导出后分析对应的每个指标与时间之间的关系。 c.⽤户整体⾏为数据 d、⽤户的复购率和跳失率 2017年11⽉25⽇⾄2017年12⽉3⽇之间,⽤户的复购率为66.4%且流失率为0,说明淘宝对⽤户有较⼤的吸引⼒使⽤户停留且⽤户 的忠诚度⾮常⾼。可以进⼀步提⾼复购率,⿎励⽤户更⾼频次的购物。 2、⽤户转化情况分析 、⽤户转化情况分析 a、⽤户转化率及流失分析 上图统计了各个⾏为的总数量,点击后,到加购物车或者收藏概率在3%-6%之间,⽽最后真正购买的概率降到了2.4%,说明⽤户的⾏ 为在浏览了商品详情页后出现了⼤量的流失。但是⽤户是否也是在点击后产⽣了⼤量的流失呢? 对此,对各个⽤户⾏为类型的⽤户数进⾏了统计,并使⽤漏⽃转化模型进⾏了处理,建⽴了⽤户转化漏⽃图。 上图可以看出,⽤户并未点击后就⼤量流失,并且最后付费⽤户⽐例达到了69%,购买率达到了7成,说明⽤户的购买意愿较为理想。 结合⽤户⾏为数统计推断⽤户的点击⾏为远远超过了收藏和加购物车的⾏为,说明⽤户有较⼤的可能在购物时有"货⽐三家"的习惯。 所以针对⼤部分点击后转化到加购物车和收藏的概率较低有较⼤的提升空间,APP可以通过优化推荐商品的功