科技小数据|机器学习中如何使用校正的异方差算法?


在回归分析过程中 , 同方差(Homoscedasticity)和异方差(Heteroscedasticity)是非常普遍的问题 , 这正是需要研究统计学的最大证据 。
概念解释
同方差
当随机变量都有相同的方差时就是同方差 , 此时随机变量就是具有相同结构的情况 。

科技小数据|机器学习中如何使用校正的异方差算法?
本文插图


科技小数据|机器学习中如何使用校正的异方差算法?
本文插图

同方差图
同方差
异方差是非同方差 , 即随机变量具有不同的结构/分布 。
【科技小数据|机器学习中如何使用校正的异方差算法?】
科技小数据|机器学习中如何使用校正的异方差算法?
本文插图


科技小数据|机器学习中如何使用校正的异方差算法?
本文插图

异方差图
检测异方差
当我们处理回归任务时 , 异方差会给我们带来一个问题 。 因为线性回归中使用的最小二乘法有一个前提假设 , 就是变量是同方差的 , 否则 , 异方差会导致p值小于应有p的值 , 这将导致对数据进行处理时产生误解 , 并且导致错误的统计结论 。
在实际数据处理中 , 首先 , 我们可能需要检查数据集中是否存在异方差 。
有两种不同的统计检验方法 。 第一个是ush Breush-Pegan测验 , 另一个是white test 。 借助这两个测试 , 我们可以确定数据中的异方差 。
如何将异方差转换为同方差?
我想告诉你如何摆脱异方差问题 。 有两种方法可用 。
其中之一是根据数据集的分布定义我们的因变量和自变量 。 在这里 , 注意变量之间的关系有多normal是很有用的 。 因为非常普通的关系不会给我们带来足够启发性的结果 。
另一种方法是加权回归 。 通过对观察到异方差性的数据中的每个数据赋予权重 , 可以将该方法称为同方性 。 这里的目标是通过为高方差值分配较小的权重以减少平方来实现同质性结构 。 本节中最有问题的情况是确定当前权重 。 最准确的权重对应于误差的方差 , 这很难计算 。
经过这些解决方法之后 , 我们将摆脱异方差问题 。 简而言之 , 在ML中使用异方差是这样的 。


    推荐阅读