[]学会这个最基础的统计学知识,数据分析专业度提升一大截( 二 )


[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图

以上图标已经将数据进行排列 , 总共有18个数据 , 接下来我们套用公式计算分别计算出下四分位数Q1、中位数Q2、上四分位数Q3的位置和数值:
中位数Q2:Q2位置=(18+1)x0.5=9.5 , 即中位数为第9和第10项的均值 , Q2=(4+6)/2=5
下四分位数Q1:Q1位置=(18+1)x0.25=4.75 , 即下四分位数为第4和第5项的均值 , Q1=(2+2)/2=2
上四分位数Q3:Q3位置=(18+1)x0.75=14.25 , 即上四分位数为第14和第15项的均值 , Q3=(11+14)/2=12.5
(3)箱型图
在算出四分位数之后 , 可能有一些理科思维不太顺畅的人会看懵了 , 会疑问到这是表示什么呀?这时 , 就需要用到数据可视化了 , 用更加直观的形式去展示和分析数据的情况 。 箱型图就是四分位数的专用可视化图形工具 , 它能显示出一组数据的最大值(上界)、最小值(下界)、中位数、及上下四分位数 。 用Excel就能直接做出箱型图
[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图

根据就餐人员距离的数据计算得出四分位数后 , 以箱线图呈现 , 我们发现中位数离下四分位数较近 , 这代表大部分数值集中在箱线图下端 , 集中在下四分位数和中位数之间 。 箱线图的作用主要有两个:1比较不同数据集、2识别异常值 。
5、标准差
在统计学中 , 我们会用“离散程度”(即是变异性、波动大小)来衡量数据的稳定性 。 而“标准差”就是统计学当中用来在海量杂乱无章的数据中衡量数据相对于平均值的大小 。
优势:衡量波动大小缺点:如果两个数据差别比较大 , 那么就无法比较 。
计算公式:
假设有一个数据集X1、X2、X3
平均值=μ
方差=((X1-μ)2+(X2-μ)2+(X3-μ)2)/n
标准差σ=√ ̄方差
标准差小就证明数据整体波动水平越小 。 在实际生活中经常会用来计算球员的发挥稳定性 。
标准差虽然能表示数据整体的波动 , 但是它有个缺点:如果两个数据差别比较大的情况下那么就无法进行比较 。
6、离散系数
离散系数又称变异系数 ,它是一组数据的标准差与其相应的平均数之比 。
变异系数=标准差σ/平均值μ
离散系数主要用于比较不同样本数据的离散程度 。 离散系数大 , 说明数据的离散程度越大 , 平均指标(一般指平均数)的代表性越差 , 离散系数小 , 说明数据的离散程度也小 。 平均指标(一般指平均数)的代表性越好 。
7、标准分:对数据进行归一化处理
标准分主要是用来计算出某个数值在数据中的相对位置的 , 标准分又叫Z分数或是标准化值 。 标准分布又称正态分布
计算公式:
假设有一个数据集X1、X2、X3
平均值=μ
标准差=σ
X2的标准分Z2=(X2-μ)/σ
标准分=某个数值距离平均值多少个标准差 , 通过标准分我们就可以知道这个数值与平均值的相对接近程度 。 标准分=0 , 数值=平均值;标准分>0 , 数值>平均值;标准分<0 , 数值<平均值
【[]学会这个最基础的统计学知识,数据分析专业度提升一大截】笔者从业数据分析多年 , 整理了10G的数据分析学习资料包 , 需要的朋友转发收藏本文 , 后台私信我“资料包”即可获得!


推荐阅读