数据挖掘实战—商品零售购物篮分析
学会使用学术数据库的API接口,进行数据挖掘和分析。 #生活技巧# #学习技巧# #学术论文检索技巧#
文章目录 引言 一、数据探索性分析 1.数据质量分析 1.1 缺失值分析 1.2 异常值分析 1.3 重复数据分析 2.数据特征分析 2.1 描述性统计分析 2.2 分布分析 2.2.1 商品热销情况分布分析 2.2.2 按类别划分商品销量分布分析 2.2.3 商品内部结构分布分析 二、数据预处理 三、模型构建 案例数据百度网盘链接-提取码:1234 使用的notebook百度网盘链接-提取码:1234传送门:
数据挖掘实战—财政收入影响因素分析及预测 数据挖掘实战—航空公司客户价值分析 数据挖掘实战—商品零售购物篮分析 数据挖掘实战—基于水色图像的水质评价 数据挖掘实战—家用热水器用户行为分析与事件识别 数据挖掘实战—电商产品评论数据情感分析引言
购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。本文使用Apriori关联规则算法实现购物篮分析,发现超市不同商品之间的关联关系,并根据商品之间的关联规则制定销售策略。定义数据挖掘目标如下:
构建零售商品的Apriori关联规则模型,分析商品之间的关联性 根据模型结果给出销售策略购物篮关联规则分析数据挖掘步骤如下:
对原始数据进行探索性分析,分析商品的热销情况与商品结构 对原始数据进行数据预处理,转换数据形式,使之符合Apriori关联规则算法要求 采用Apriori关联规则算法调整模型的输入参数,完成商品的关联性分析 结合实际业务,对模型结果进行分析,给出对应的销售策略
一、数据探索性分析
%matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import missingno as mg # 加载数据 order_data = pd.read_csv('data/GoodsOrder.csv',index_col=0,header=0,encoding='gbk') type_data = pd.read_csv('data/GoodsTypes.csv',index_col=0,header=0,encoding='gbk')
python
运行
12345678910 1.数据质量分析 1.1 缺失值分析order_data.isnull().sum()
python
运行
1
数据中不含有缺失值
a = 0 b = 0 for i in order_data['Goods']: if i in list(type_data.index): a += 1 else: b += 1 print(a,b) # 43285 82
python
运行
123456789发现第一表中的部分商品名称没有在第二个表格中出现,可能存在异常值
1.3 重复数据分析data = order_data.reset_index() #重置索引 data.duplicated().sum()
python
运行
12
发现数据中没有重复值
data.describe().T
python
运行
1
发现共有43367个观测值(售出商品总数),不存在缺失值,共有9835条购物篮数据
通过对Goods列进行统计,可以进行商品热销情况分析,计算销量排行前10的商品销量。有以下两种方式:
group = data.groupby(['Goods']).count().reset_index() # 计数 sort = group.sort_values(by='id',ascending = False).reset_index(drop=True)
python
运行
12
order_data.Goods.value_counts().reset_index()
python
运行
1
print('销量排行前10的商品销量\n',sort[:10])
python
运行
1
fig,ax = plt.subplots(figsize=(8,8)) # ax.barh(sort.iloc[:10,0],sort.iloc[:10,1]) sns.barplot(y=sort.iloc[:10,0],x=sort.iloc[:10,1]) ax.set_xlabel('商品销量',fontsize=15) ax.set_ylabel('商品类别',fontsize=15) ax.set_title('销量排名前10的商品销量情况',fontsize=20) plt.savefig('Top10.png')
python
运行
1234567
# 计算销量前10的商品占比 for index,row in sort[:10].iterrows(): print(row['Goods'],row['id'],row['id']/len(data))
python
运行
123
通过以上分析,我们得出商品销量前10的商品以及它们的销量占比
接下来,将商品归类,分析各类商品的销量及占比情况
links = pd.merge(sort,type_data,left_on='Goods',right_index=True,how='inner') # 这里对两张表键的交集进行联合
python
运行
1这里对两个表中键的交集进行联合,消除了异常值。

求每个类别商品的销量
# 根据商品类别进行分组并求和 type_links = links.groupby(['Types']).sum().reset_index() # 排序 type_links = type_links.sort_values('id',ascending=False).reset_index(drop=True)
python
运行
1234
求每个类别商品的销量占比
# axis = 0对每一列应用函数,axis=1对每行应用函数 type_links['count'] = type_links.apply(lambda x : x['id'] / len(order_data),axis=1) # 重命名 type_links.rename(columns={ 'count':'percent'},inplace=True) print('各类商品的销量及占比\n',type_links) type_links.to_csv('percent.csv',index=False,header=True,encoding='gbk')
python
运行
12345678
绘制各类别销量占比的饼状图
# 画饼图展示每类商品的销量占比 data = type_links['percent'] label = type_links['Types'] plt.figure(figsize=(8,8)) plt.pie(data,labels=label,autopct='%1.2f%%',labeldistance=1.05,shadow=True) plt.axis('equal') # 显示为圆(避免比例压缩为椭圆) plt.title('每类商品销量占比',fontsize=20) plt.savefig('percent.png')
python
运行
12345678
从饼状图中可以看出:果蔬、西点、非酒精饮料这3类商品的销量差距不大,占总销量的50%左右。同时。按大类划分,食品类销量总和接近90%左右,说明顾客倾向于购买食品类商品,其他商品并非销售主力。
通过饼状图,我们可以发现非酒精饮料销量第1,我们以非酒精饮料为例,展示非酒精饮料的商品结构。我们先在links筛选出非酒精饮料的商品名称,然后在统计每一个商品名称的销量及占比
selected = links.loc[links.Types == '非酒精饮料']
python
运行
1
计算每一种非酒精饮料的占比
noalcohol = selected['id'].sum() selected['count'] = selected.apply(lambda x : x['id']/noalcohol,axis=1) selected.rename(columns={ 'count':'percent'},inplace=True)
python
运行
12345
饼状图展示非酒精饮料的商品结构
# 画饼状图 data = selected['percent'] label
python
运行
12网址:数据挖掘实战—商品零售购物篮分析 https://www.yuejiaxmz.com/news/view/1388365
相关内容
实时决策支持系统:数据挖掘中的实时光速分析生活中的数据挖掘模式,生活中数据挖掘的例子
数据挖掘与商业智能的实践案例分析
健康数据挖掘与分析详述.pptx
《python数据分析与挖掘》
【案例】数据挖掘与生活:算法分类和应用
健康数据的挖掘与分析.pptx
数据挖掘算法与现实生活中的应用案例
数据挖掘在图书馆用户行为分析中的应用
关联规则挖掘实践

