「数据」白话讲解商业智能 BI、数据仓库 DW和数据挖掘 DM
商业智能 BI、数据仓库 DW、数据挖掘 DM
商业智能BI(Business Intelligence)。 相比于数据仓库、数据挖掘 , 它是一个更大的概念 。 商业智能可以说是基于数据仓库 , 经过了数据挖掘后 , 得到了商业价值的过程 。 所以说数据仓库是个金矿 , 数据挖掘是炼金术 , 而商业报告则是黄金 。
本文插图
数据仓库DW(Data Warehouse)。 它可以说是 BI 这个房子的地基 , 搭建好 DW 这个地基之后 , 才能进行分析使用 , 最后产生价值 。 数据仓库可以说是数据库的升级概念. 和数据库并无明显差别都是通过数据库技术来存储数据的 。 数据仓库将原有的多个数据来源中的数据进行汇总、整理而得 。 数据进入数据仓库前 , 必须消除数据中的不一致性 , 方便后续进行数据分析和挖掘 。
本文插图
数据挖掘DM(Data Mining)。 在商业智能 BI 中经常会使用到数据挖掘技术 。 数据挖掘的核心包括分类、聚类、预测、关联分析等任务 , 通过这些炼金术 , 我们可以从数据仓库中得到宝藏 , 比如商业报告 。
本文插图
元数据 and 数据元
元数据(MetaData): 描述其它数据的数据 , 也称为“中介数据” 。数据元(Data Element): 就是最小数据单元 。
在生活中 , 只要有一类事物 , 就可以定义一套元数据 。 举个例子 , 比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息 , 我们就可以把这些属性定义成一套图书的元数据 。
在图书这个元数据中 , 书名、作者、出版社就是数据元 。 你可以理解是最小的数据单元 。 元数据最大的好处是使信息的描述和分类实现了结构化 , 让机器处理起来很方便 。
__元数据的作用:
元数据可以很方便地应用于数据仓库 。 比如数据仓库中有数据和数据之间的各种复杂关系 , 为了描述这些关系 , 元数据可以对数据仓库的数据进行定义 , 刻画数据的抽取和转换规则 , 存储与数据仓库主题有关的各种信息 。 而且整个数据仓库的运行都是基于元数据的 , 比如抽取调度数据、获取历史数据等 。 数据挖掘的流程
数据挖掘(Knowledge Discovery in Database)数据库中知识发现 , 简称KDD 。 在数据挖掘中有几个非常重要的任务分别是分类 , 聚类 , 预测和关系分析 。
1.分类:
就是通过训练集得到一个分类模型 , 然后用这个模型可以对其他数据进行分类 。
训练集和测试集的概念:
一般来说数据可以划分为训练集和测试集 。 训练集是用来给机器做训练的 , 通常是人们整理好训练数据 , 以及这些数据对应的分类标识 。 通过训练 , 机器就产生了自我分类的模型 , 然后机器就可以拿着这个分类模型 , 对测试集中的数据进行分类预测 。 同样如果测试集中 , 人们已经给出了测试结果 , 我们就可以用测试结果来做验证 , 从而了解分类器在测试环境下的表现 。
2.聚类:
人以群分 , 物以类聚 。 聚类就是将数据自动聚类成几个类别 , 聚到一起的相似度大 , 不在一起的差异性大 。 我们往往利用聚类来做数据划分 。
3.预测:
就是通过当前和历史数据来预测未来趋势 , 它可以更好地帮助我们识别机遇和风险 。
4.关系分析:
就是发现数据中的关联规则 , 它被广泛应用在购物篮分析 , 或事务数据分析中 。 比如某宝中的物品绑定推送 。
数据库中知识发现(KDD)过程:
输入数据 --> 数据预处理(特征选择 , 维规约 , 规范化 , 选择数据子集) --> 数据挖掘 --> 后处理(模式过滤 , 可视化 , 模式表示) --> 信息
推荐阅读
- 兰州新闻网美国疫情数据为何矛盾混乱
- ZAKER| 不必在意巴菲特看空航空业,数据解析
- 证券数据宝重磅!华为成立“5G汽车生态圈”,对标特斯拉实现终极无人驾驶
- 『Java』java数据结构系列——什么是数据结构
- 兄弟篮球前AMVP却并非合格领袖,同曦男篮需做出改变,数据足够出彩
- 靓科技解读Thing,a16z、5.15亿美金的数据加密股票基金:找寻下一个Big
- 长沙城事吃吃吃、买买买成主流,五一消费数据出炉
- 大数据邦新基建之大数据中心规划设计原则和内容,选址很关键
- 大数据邦选址很关键,新基建之大数据中心规划设计原则和内容
- 小熊带你玩科技数据成粤企生产新要素,工业互联网深调研〡从经验依赖到数据驱动
