数据分析

关于数据分析的一些问题

销售分析专业词汇
经营指标词汇
交易金额
别名交易额、营业额、交易流水、销售额
定义指定时间段内,所有实际完成交易获得的总金额
计算指定时间段内,报告对象所有单笔交易发生的金额的求和
英文Sales Value / Sales
客单价
别名平均单价
定义指定时间段内,单笔交易的平均金额
计算指定时间段内,报告对象每笔交易金额的加权平均值
英文Average Transaction Size / ATS
交易笔数
别名销售笔数、水单数
定义指定时间段内,所有完成交易的次数
计算指定时间段内,报告对象所有单笔交易的次数之和
英文Sales Transaction / Transaction
客流
别名客流量
定义指定时间段内,在某个场所停留过的总人数
计算指定时间段内,初始人数 + 进入人数
英文Customer Flow
人效
别名单人销售额
定义指定时间段内,单个销售人员完成的销售额
计算指定时间段内,销售额 / 销售人员数量
英文Sales per Sales-person / SPS
坪效
别名单位面积销售额
定义指定时间段内,每平方米产生的销售额
计算指定时间段内,报告对象的交易额 / 店铺面积
英文Sales per Sq. m / SPM
商户数据覆盖率
别名-
定义指定时间段内,具有有效数据的商户数量占所有商户数据的百分比
计算指定时间段内,有效数据的商户数量 / 所有商户的数量
英文Data Coverage
购买频次
别名-
定义指定时间段内,商品(SKU)在交易中出现的次数
计算指定时间段内,出现统计对象(通常是单一商品)的交易笔数之和
英文Purchase Frequency
报告分析词汇
区域
定义做经营分析时的数据统计范围,通常以单一楼层做为一个区域
英文Zone
业态
定义商户的经营特色属性,以销售对象和销售产品特色来进行划分。常用的业态分类有餐饮,零售,生活服务,休闲娱乐,儿童亲子,超市
英文Category
异动(商户)
定义指定时间段内,销售金额上升或下降变化幅度最大的商户
英文Abnormal Change
重点关注(商户)
定义指定时间段内,销售金额最高的商户
英文Key Store
关联购买(商品)
定义在同一笔交易中完成购买的商品组合
英文Relevant SKU
热卖商品 / 活跃商品
定义指定时间段内,有过实际销售的商品
英文Active SKU
新品商品
定义在交易中首次出现购买的商品(SKU),新品自首次出现30天后即作为正常商品,不再算作新品
英文New SKU
特卖商品
定义指定时间段内,有促销活动的商品
英文Promotion SKU
智能分析算法规则
同比分析
定义本报告体系中,同比分析的定义为历史同期数据分析,以年为单位,日报为去年同日,周报为去年同周,月报为去年同月
英文Year on Year Analysis / YoY
环比分析
定义本报告体系中,环比分析的定义为相邻两个时段的数据进行分析,日报为前一日,周报为前一周,月报为前一月,年报为前一年
英文Sequential Analysis
偏离值处理 - 数据缺失
由于外力因素,数据可能产生缺失,为确保分析的延续性和可读性,需要针对数据进行推算还原,数据推算规则如下:

情景1:推算商户Store历史数据

1. 推算基本对象:商户
2. 推算基本报告时段:日报
3. 数据推算最大时间跨度:90天
4. 可推算指标:销售额,销售笔数

第一步:累计商户一个月的数据Data-Store-MonA,计算当月的数据平均值Ave. Data-Store作为基数。
第二步:以Mall的同一业态同一个月的数据Data-Cat-MonA,计算当月的数据平均值Ave. Data-Cat。
第三步:以所在Mall的同一业态当月的数据平均值Ave. Data-Cat为基数100%,推算Mall的同一业态过去3个月的数据变动指数Cat-Index_N(N取值为1到90)。
第四步:利用购物中心业态的数据变动指数Cat-Index_N,和商户基数Ave. Data-Store反推过去90天商户的各项销售数据。

当商户开业之日少于90天,数据推算到实际开业当天。

情景2:推算商户Store当期偶发缺失数据

1. 推算基本对象:商户
2. 推算基本报告时段:日报
3. 数据推算最大时间跨度:14天
5.可推算指标:销售额,销售笔数

第一步:计算商户历史的日数据平均值。
第二步:利用商户历史的日数据平均值,作为当期数据。

日数据的平均值以每周同期进行计算,即周一的平均值为历史数据周一的平均值。
商户历史数据使用4周平均。
当历史数据少于4周,大于1周,可按照实际历史数据推算。
当历史数据少于1周,视同情景1,推算商户Store 历史数据处理。

本报告体系对待数据缺失,采用多值插补的方法来规划推算。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。
偏离值处理 - 数据波动过大
由于日常经营活动中,商户的经营数据会产生比较大的变化。因此,本报告体系对数据波动设定阈值,当数据变动阈值超过预设时,即产生提醒,并对异常数据进行校正。

1. 数据校正对象:商户
2. 数据校正基本报告时段:日报

情景1:商户历史日交易笔数超过或等于15笔

当商户交易额超过过去4周同期平均值的200%时,系统将对商户数据自动进行排查。在排查过程中,相关数据将以过去4周同期平均值的200%,在报告中显示。 经过数据排查,商户数据将以实际值显示在系统中。

情景2:商户日交易笔数超过或等于8笔,少于15笔

当商户交易额超过过去4周同期平均值的300%时,系统将对商户数据自动进行排查。在排查过程中,相关数据将以过去4周同期平均值的300%,在报告中显示。 经过数据排查,商户数据将以实际值显示在系统中。

情景3:商户日交易笔数少于8笔

当商户交易额超过过去4周同期平均值的400%时,系统将对商户数据自动进行排查。在排查过程中,相关数据将以过去4周同期平均值的400%,在报告中显示。 经过数据排查,商户数据将以实际值显示在系统中。

对于任意ε>0,有:。当时,如果总体为一般总体的时候,统计数据与平均值的离散程度可以由其标准差反映,因此有:

本报告体系根据不同商户的业态类型和经营状况,计算分层标准差基数,用于检验商户销售额的偏离度。
大数据算法学习
大数据技术框架

5种必知的大数据处理框架技术

浅谈OceanBase系统整体架构

9个最佳的大数据处理编程语言

词与文本相似度

相似性度量(距离及相似系数)

余弦距离、欧氏距离和杰卡德相似性度量的对比分析

余弦相似性

人工智能

回归、分类与聚类

逻辑回归(Logistic Regression)

线性回归原理和实现基本认识

深度学习cnn卷积神经网络原理

联结一切可能
北京总部

贡院西街6号E座2层
东城区,北京市,100005,中国
+86 10 6518 9511

上海分公司

天山路1900号易园906室
长宁区,上海市,100005,中国
+86 021 5109 0966

 
©2010-2018 北京互帮国际技术有限公司
京 ICP备 12007910号
京 公网安备 11010102002216号

数据采集

酷方 CUBE 300

酷方 CUBE 200s

酷方 CUBE iCUBE

酷方 CUBE V

酷方 CUBE P

数据分析

酷睿 REAL Basic

酷睿 REAL Mall

酷睿 REAL War Room

酷睿 REAL Store

酷睿 REAL Guide

移动支付

酷贝 / 海贝

云投币器

用户中心

数采技术

数据分析

客户专区

博客文章

应用案例

市场活动

关于我们

邀请函