「数据」白话讲解商业智能 BI、数据仓库 DW和数据挖掘 DM( 二 )
数据预处理时进行的步骤:
【「数据」白话讲解商业智能 BI、数据仓库 DW和数据挖掘 DM】1.数据清洗
主要是为了去除重复数据 , 去噪声(即干扰数据)以及填充缺失值 。
2.数据集成
是将多个数据源中的数据存放在一个统一的数据存储中 。
3.数据变换
就是将数据转换成适合数据挖掘的形式 。 比如 , 通过归一化将属性数据按照比例缩放 , 这样就可以将数值落入一个特定的区间内 , 比如 0~1 之间 。 白话讲解:
比如你认识了两个漂亮的女孩 。
本文插图
商业智能 会告诉你要追哪个?成功概率有多大?
数据仓库 会说 , 我这里存储了这两个女孩的相关信息 , 你要吗?
其中每个女孩的数据都有单独的文件夹 , 里面有她们各自的姓名、生日、喜好和联系方式等 , 这些具体的信息就是 数据元, 加起来叫作 元数据。
数据挖掘 会帮助你确定追哪个女孩 , 并且整理好数据仓库 , 这里就可以使用到各种算法 , 帮你做决策了 。
你可能会用到 分类算法。 御姐、萝莉、女王 , 她到底属于哪个分类?
如果认识的女孩太多了 , 多到你已经数不过来了 , 比如说 5 万人!你就可以使用 聚类算法 了 , 它帮你把这些女孩分成多个群组 , 比如 5 个组 。 然后再对每个群组的特性进行了解 , 进行决策 。 这样就把 5 万人的决策 , 转化成了 5 个组的决策 。 成功实现降维 , 大大提升了效率 。如果你想知道这个女孩的闺蜜是谁 , 那么 关联分析算法 可以告诉你 。 如果你的数据来源比较多 , 比如有很多朋友给你介绍女朋友 , 很多人都推荐了同一个 , 你就需要去重 , 这叫 数据清洗 ;为了方便记忆 , 你把不同朋友推荐的女孩信息合成一个 , 这叫 数据集成 ;有些数据渠道统计的体重的单位是公斤 , 有些是斤 , 你就需要将它们转换成同一个单位 , 这叫 数据变换。
最后你可以进行数据可视化了 , 它会直观地把你想要的结果呈现出来 。
推荐阅读
- 兰州新闻网美国疫情数据为何矛盾混乱
- ZAKER| 不必在意巴菲特看空航空业,数据解析
- 证券数据宝重磅!华为成立“5G汽车生态圈”,对标特斯拉实现终极无人驾驶
- 『Java』java数据结构系列——什么是数据结构
- 兄弟篮球前AMVP却并非合格领袖,同曦男篮需做出改变,数据足够出彩
- 靓科技解读Thing,a16z、5.15亿美金的数据加密股票基金:找寻下一个Big
- 长沙城事吃吃吃、买买买成主流,五一消费数据出炉
- 大数据邦新基建之大数据中心规划设计原则和内容,选址很关键
- 大数据邦选址很关键,新基建之大数据中心规划设计原则和内容
- 小熊带你玩科技数据成粤企生产新要素,工业互联网深调研〡从经验依赖到数据驱动
