Ai聘网 Ai聘网:零基础学大数据挖掘知识点(4)

这是Ai聘网讲零基础学大数据挖掘的最后一篇咯!前面的28个知识点你们记住了多少呢?“温故而知新”记得要回去看看Ai聘网前期的零基础学大数据挖掘知识点哦
29.简述知识发现项目的过程化管理I-MIN过程模型 。
MIN过程模型把KDD过程分成IM1、IM2、…、IM6等步骤处理 , 在每个步骤里 , 集中讨论几个问题 , 并按一定的质量标准来控制项目的实施 。
IM1任务与目的:它是KDD项目的计划阶段 , 确定企业的挖掘目标 , 选择知识发现模式 , 编译知识发现模式得到的元数据;其目的是将企业的挖掘目标嵌入到对应的知识模式中 。
IM2任务与目的:它是KDD的预处理阶段 , 可以用IM2a、IM2b、IM2c等分别对应于数据清洗、数据选择和数据转换等阶段 。 其目的是生成高质量的目标数据 。
IM3任务与目的:它是KDD的挖掘准备阶段 , 数据挖掘工程师进行挖掘实验 , 反复测试和验证模型的有效性 。 其目的是通过实验和训练得到浓缩知识(KnowledgeConcentrate) , 为最终用户提供可使用的模型 。
IM4任务与目的:它是KDD的数据挖掘阶段 , 用户通过指定数据挖掘算法得到对应的知识 。
IM5任务与目的:它是KDD的知识表示阶段 , 按指定要求形成规格化的知识 。
IM6任务与目的:它是KDD的知识解释与使用阶段 , 其目的是根据用户要求直观地输出知识或集成到企业的知识库中 。
30.改善Apriori算法适应性和效率的主要的改进方法有:
a基于数据分割(Partition)的方法:基本原理是“在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的” 。
b基于散列(Hash)的方法:基本原理是“在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的” 。
c基于采样(Sampling)的方法:基本原理是“通过采样技术 , 评估被采样的子集中 , 并依次来估计k-项集的全局频度” 。
d其他:如 , 动态删除没有用的事务:“不包含任何Lk的事务对未来的扫描结果不会产生影响 , 因而可以删除” 。
31.数据分类的两个步骤是什么?
a建立一个模型 , 描述预定的数据类集或概念集
数据元组也称作样本、实例或对象 。
为建立模型而被分析的数据元组形成训练数据集 。
训练数据集中的单个元组称作训练样本 , 由于提供了每个训练样本的类标号 , 因此也称作有指导的学习 。
通过分析训练数据集来构造分类模型 , 可用分类规则、决策树或数学公式等形式提供 。
b使用模型进行分类
首先评估模型(分类法)的预测准确率 。
如果认为模型的准确率可以接受 , 就可以用它对类标号未知的数据元组或对象进行分类 。
32.web访问信息挖掘的特点:
Web访问数据容量大、分布广、内涵丰富和形态多样
一个中等大小的网站每天可以记载几兆的用户访问信息 。
广泛分布于世界各处 。
访问信息形态多样 。
访问信息具有丰富的内涵 。
Web访问数据包含决策可用的信息
每个用户的访问特点可以被用来识别该用户和网站访问的特性 。
同一类用户的访问 , 代表同一类用户的个性 。
一段时期的访问数据代表了群体用户的行为和群体用户的共性 。
Web访问信息数据是网站的设计者和访问者进行沟通的桥梁 。
Web访问信息数据是开展数据挖掘研究的良好的对象 。
【Ai聘网 Ai聘网:零基础学大数据挖掘知识点(4)】Web访问信息挖掘对象的特点
访问事务的元素是Web页面 , 事务元素之间存在着丰富的结构信息 。
访问事务的元素代表的是每个访问者的顺序关系 , 事务元素之间存在着丰富的顺序信息 。
每个页面的内容可以被抽象出不同的概念 , 访问顺序和访问量部分决定概念 。
用户对页面存在不同的访问时长 , 访问长代表了用户的访问兴趣 。


推荐阅读