推断性统计|统计数据:一个成功数据科学项目的最佳起点
全文共2534字,预计学习时长7分钟
文章图片
图源:unsplash
【 推断性统计|统计数据:一个成功数据科学项目的最佳起点】统计数据是运用实验数据扩展人类知识面的科学与实践,以应用数学的一个分支——统计理论为基础。统计理论中,随机事件和不确定性通过概率论建模。
要想开启一个兼具意义和效果的数据科学项目,需要深入理解原始数据和相关领域知识。初步的统计工具和可视化图表,能帮助人们更深入、直观地理解数据及其行为。
统计学包含许多基本概念,如描述性统计和推断性统计。描述性统计使用均值、标准差等指标总结样本数据,推断性统计从随机变化的数据中得出结论。描述性统计可用于分析人口数据,数值描述符包括均值和标准差,多用于连续数据类型(如收入),而频率和百分比则在描述分类数据(如教育)方面更为有效。
对人口数据进行具有意义的总结时,需要推断性统计。推断性统计通过样本数据模式,推断数据所代表的人群,同时考虑随机性。计算统计学,或统计计算,是连接统计学和计算机科学的桥梁,是具体到数理统计科学的计算科学(或科学计算)。
统计实践包括对不确定研究对象进行整理、总结和解释。鉴于统计数据是为了从现存数据中提取最佳信息,有的作者将统计数据视为决策理论的分支。
随机试验中,实验方案中指定的随机方式用于指导统计分析,而统计分析在实验方案中往往也是特定的。例如,测量系统分析(MSA)是一种实验数学方法,用于确定在测量过程中的变化对整个过程可变性的贡献率。
本文将介绍最适用易用的统计概念,以便启动一个成功的数据科学项目。
均值或平均值
均值或平均值是一组数字的总和除以该组数字的计数。这组数字往往是某一实验或观察性研究的一系列结果,或是某一调查的一系列结果。在某些情况下,“数学平均值”的说法更受青睐,因为它能很好区别于几何平均值、调和平均值等其他平均值。
方差
方差是随机变量偏离其平均值的平方的期望值。通俗来说,它衡量的是一组数字与其平均值的差距。方差在统计学中处于核心地位,使用场景涵盖描述性统计、统计推断、假设检验、拟合优度和蒙特卡罗抽样。
方差分析
方差分析(ANOVA)是统计假设检验的一种形式,广泛用于实验数据分析。假设零假设是真实的,如果测试结果(依据零假设和样本计算得出)被认为不可能是偶然发生的,那么它就具有统计显著性。当概率(p值)小于预先设定的临界值(显著性水平),统计显著性结果便可证明拒绝零假设的合理性,但前提是零假设的先验概率不高。
文章图片
图源:unsplash
标准差
标准差衡量的是一组值的变化量或离差。低标准差表示数值大小接近集合的平均值(也称期望值),高标准差则表示数值范围跨度较大。
错误
从一个零假设出发,可识别错误的两种基本形式:
· 第一类错误,错误拒绝零假设,呈现“假阳性”。
· 第二类错误,即原假设未能被拒绝,且总体之间的实际差异被忽略,呈现“假阴性”。
卡方检验(Chi-squared test)
卡方检验,也称χ2检验,是一种统计假设检验,当检验统计量在零假设下呈卡方分布,尤其是皮尔逊卡方检验及其变体中,卡方检验有效。皮尔逊卡方检验用于确定在一个或多个列联表类别中,预期频率和实际频率之间是否存在统计显著性差异。
t检验(Student’s t-test)
如果测试统计中比例项已知,当测试统计遵循正态分布时,t检验最为常用。当比例项未知且被基于数据的估算替代时,测试统计遵循t分布。例如,t检验可用于确定两组数据的平均值是否存在显著差异。
皮尔逊(Pearson)相关系数
皮尔逊相关系数是两个变量的协方差除以其标准差的乘积。该定义涉及“乘积矩”,即均值调整随机变量的乘积的均值(关于原点的第一个矩),因此名称中出现了修饰语积矩。
文章图片
图源:unsplash
相关性和依赖性
相关性或依赖性代指两个随机变量或双变量数据之间的所有统计关系,无论是否是因果关系。广义上的相关性涵盖所有统计关联,虽然它通常指的是一对变量线性相关的程度。
依赖现象的常见例子包括父母及其子女身体状况之间的联系,商品价格和消费者愿意购买数量之间的联系,正如需求曲线所描述的那样。
回归分析
回归分析是一系列统计过程,用于测算因变量和一个或多个自变量之间的关系。最常见的回归分析是线性回归,即研究人员根据特定的数学标准找到最符合数据的直线。
斯皮尔曼等级(Spearman’s rank)相关系数
两个变量之间的斯皮尔曼相关等于这两个变量的等级值之间的皮尔逊相关;皮尔逊相关评估线性关系,而斯皮尔曼相关评估单调关系(无论线性与否)。如果没有重复的数据值,每个变量都是另一个变量的完美单调函数时,就会出现+1或1的完美斯皮尔曼相关。
推荐阅读
- 时政|国家卫健委:卫生健康统计造假将承担法律责任
- 统计|国家卫健委:防范惩治卫生健康统计造假 加强问责管理
- 国家卫健委:防范惩治卫生健康统计造假 加强问责管理
- 国家统计局|国家统计局:7月规模以上工业企业利润同比增长19.6%
- 国家卫健委:伪造、篡改统计资料及其他统计违法行为应承担相应法律责任
- 工业|国家统计局:7月份工业利润增速持续加快
- 穿江越海!我国在这个领域国际领先
- 国家统计局|国家统计局:1―7月全国规模以上工业企业利润降8.1%
- 利润|国家统计局:7月份工业利润同比增19.6%
- 国家统计局:7月份工业利润同比增19.6%
