淘宝用户行为分析概述:
# 一、项目背景
本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:
日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。
# 二、数据来源
https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1
# 三、提出问题
1.日PV有多少
2.日UV有多少
3.付费率情况如何
4.复购率是多少
5漏斗流失情况如何
6.用户价值情况
PUBG游戏数据分析:
# 一、项目简介:
此次的项目分析数据基于 Kaggle 平台的开源数据集,数据集地址记录在代码处,分析工具为 python。主要进行的是探索性数据分析(EDA),工作主要有前期的数据准备和预处理,如对数据的获取、 清洗、整合等; 然后对数据进行一定程度上的挖掘并进行数据可视化; 完成数据分析后将选取的数据上传至 mysql 数据库中。最后利用机器学习对数据集做了一个二分类的模型。
# 二、数据集介绍:
数据集信息来自是一款叫做《绝地求生》(PUBG)的即时多人的战术竞技类游戏,在该游戏中,玩家需要在游戏地图上收集各种资源,并在不断缩小的安全区域对抗其他玩家,让自己生存到最后。根据数 据集作者介绍,数据源来自开放的第三方网站 pubg.op.gg,记录了大概 720000 场比赛的数据,包含了赛事概况数据和玩家死亡的具体数据两部分,本次项目取自于大概 150000 场的比赛概况数据,主 要有赛事 id、比赛日期、游戏规模、比赛模式、队伍规模,最终排名、击杀数、生存时间等比赛信息。
# 三、数据分析:
数据集信息
源数据包含 13849287 场不唯一的比赛数据,每场比赛有 15 类数据信息,分别是比赛日期、游戏规模、赛事 id、比赛模式、队伍规矩、玩家助攻、击倒敌人次数、车辆驾驶距离、玩家行走距离、玩家 造成伤害量、击杀玩家数、玩家名称、生存时间、队伍 id、最终排名。
在数据选择上,使用了唯一的赛事 id 数据,即去除了重复的比赛场次,最终共有 149994场比赛数据。同时还去除了相对不太重要的数据维度,有队伍 id,比赛日期,玩家名称;并且在游戏模式分布 中,所有玩家都是第三人称视角(TPP),因此也筛除出分析维度里。源数据并没有缺失值,所以最终以筛选后的数据来进行后面的数据分析与挖掘。
支付宝营销策略abtest:
# 本文所用数据集来自阿里云天池: 阿里云天池 - Audience Expansion Dataset https://tianchi.aliyun.com/dataset/dataDetail?dataId=50893&lang=zh-cn
该数据集包含三张表,分别记录了支付宝两组营销策略的活动情况:
emb_tb_2.csv: 用户特征数据集 effect_tb.csv: 广告点击情况数据集 seed_cand_tb.csv: 用户类型数据集 本分析报告主要使用广告点击情况数据,涉及字段如下:
dmp_id:营销策略编号(源数据文档未作说明,这里根据数据情况设定为1:对照组,2:营销策略一,3:营销策略二) user_id:支付宝用户ID label:用户当天是否点击活动广告(0:未点击,1:点 击)。
滴滴出行运营分析与abtest:
# 项目背景 1 背景 随着企业日常经营活动的进行,企业内部必然产生了各式各样的数据,如何利用这些数据得出有益的见解,并支持我们下一步的产品迭代以及领导决策就显得尤为重要。 A/B测试是互 联网企业常用的一种基于数据的产品迭代方法,它的主要思想是在控制其他条件不变的前提下对不同(或同一、同质)样本设计不同实验水平(方案),并 根据最终的数据变现来判断自变量对因变量 的影响;A/B测试的理论基础主要源于数理统计中的假设检验部分,此部分统计学知识读者可自行探索。