本文结构如下:
Part 1. 数据获取
数据集简介数据集在kaggle官网公开数据库中下载下来的,是Supply Chain Shipment Pricing Data(Dataset about Supply Chain),数据包括了商品名称、订单国家、运输方式、到货日期、数量、单价、重量、保险等类目。总共33列类目共10324条记录。
数据来源数据项目
Part 2. 提出问题1、针对订单记录,无法了解每个国家的订单情况,统计各个国家的订单量2、统计top10国家的订单总金额3、对数据进行基础描述统计,了解大概情况。
4、统计各类运输方式的订单量
Part 3. 清洗数据
接下来进入正式的数据清洗步骤,数据清洗是一个反复的过程;若增加了新的函数,还要检查下是否产生了错误值,并针对性地解决。
3.1导入数据
数据行列数
因数据列名太多,系统会省略部分显示,因此用option函数显示出所有列名
选取分析(上篇)所需要的数据列
修改列名称为中文名,方便阅读
查询各列数据的空值情况,经查询导入的原始数据无空值记录
查看数据类型,发现ID为整形,需改为字符串类型,实际交付日期和交货记录日期为字符串类型,需改为日期类型
修改后,方可对日期进行统计。
#转换类型后,一些无法转换为日期类型的数据会产生空值,这次将删除空值的行,删除后数据为9964行
对数据按货日期排降序,生成一份新数据。
Part4. 数据分析及可视化
4.1数据的描述性统计分析图中单价最小值为0,需要调整数据,保留最小单价大于0的数据
从图中可看出,订单数量平均值为18612,均价0.59美元。价格房差是2.29。四分位是0.46.单价最大是41.68,最小值0.01。
4.2top10国家的订单量分析图中可看出,订单量最大的是南非,总共有1364条记录,其次是尼日利亚1158,公司的客户大部分都是以非洲国家客户。
4.3统计订单总金额
第一步: 在原数据新增新增一列类目,‘订单金额’
订单金额=订单数量*单价
第二步,求‘订单金额’的总合
4.4分类统计top10各个国家的订单总额
由图可看出,尼日利亚的订单金额最大,同时订单量排名第二,说明尼日利亚的客户是我们最需要维护的客户。