科技小数据|机器学习中如何使用校正的异方差算法?
在回归分析过程中 , 同方差(Homoscedasticity)和异方差(Heteroscedasticity)是非常普遍的问题 , 这正是需要研究统计学的最大证据 。
概念解释
同方差
当随机变量都有相同的方差时就是同方差 , 此时随机变量就是具有相同结构的情况 。
本文插图
本文插图
同方差图
同方差
异方差是非同方差 , 即随机变量具有不同的结构/分布 。
【科技小数据|机器学习中如何使用校正的异方差算法?】
本文插图
本文插图
异方差图
检测异方差
当我们处理回归任务时 , 异方差会给我们带来一个问题 。 因为线性回归中使用的最小二乘法有一个前提假设 , 就是变量是同方差的 , 否则 , 异方差会导致p值小于应有p的值 , 这将导致对数据进行处理时产生误解 , 并且导致错误的统计结论 。
在实际数据处理中 , 首先 , 我们可能需要检查数据集中是否存在异方差 。
有两种不同的统计检验方法 。 第一个是ush Breush-Pegan测验 , 另一个是white test 。 借助这两个测试 , 我们可以确定数据中的异方差 。
如何将异方差转换为同方差?
我想告诉你如何摆脱异方差问题 。 有两种方法可用 。
其中之一是根据数据集的分布定义我们的因变量和自变量 。 在这里 , 注意变量之间的关系有多normal是很有用的 。 因为非常普通的关系不会给我们带来足够启发性的结果 。
另一种方法是加权回归 。 通过对观察到异方差性的数据中的每个数据赋予权重 , 可以将该方法称为同方性 。 这里的目标是通过为高方差值分配较小的权重以减少平方来实现同质性结构 。 本节中最有问题的情况是确定当前权重 。 最准确的权重对应于误差的方差 , 这很难计算 。
经过这些解决方法之后 , 我们将摆脱异方差问题 。 简而言之 , 在ML中使用异方差是这样的 。
推荐阅读
- 数据流|比亚迪M6用诊断仪无法读取TCU数据流检修
- 2020|影谱科技入选“2020中国AI商业落地价值潜力100强榜单”
- 技术编程|如何利用数据库进行世界史研究
- 行业互联网,AI人工智能|城市教育大脑以“ AI+ 大数据”为核心 , 引领教育变革
- 行业互联网|眼控科技聚焦航空气象报文,人工智能助推编发自动化
- 行业互联网|金风科技中标哈萨克斯坦札纳塔斯二期100MW风电项目
- 无人科技,电池技术|盘点几种常见的无人机电池
- 行业互联网,智慧医疗|商汤科技创“心”升级,探索“联邦学习”入选ECCV
- 行业互联网|创盈Charmwin惊艳亮相2020上海美博会,打造“光”科技健康护肤新风尚
- |如何分析“会员数据”,强化门店的竞争力?
