中国统计网|100+数据分析指标术语 | 超全指标字典快收好!(下)( 二 )


  • 暗数据(Dark Data):基本上指的是 , 由企业收集和处理的 , 但并不用于任何意义性目的的数据 , 因此它是“暗”的 , 可能永远不会被分析 。 它可以是社交网络反馈 , 呼叫中心日志 , 会议笔记等等 。 有很多人估计 , 所有企业数据中的 60-90% 可能是“暗数据” , 但谁又真正知道呢?
  • 数据挖掘(Data mining):数据挖掘是通过使用复杂的模式识别技术 , 从而找到有意义的模式 , 并得出大量数据的见解 。
  • 数据中心(Data centre):一个实体地点 , 放置了用来存储数据的服务器 。
  • 数据清洗(Data cleansing):对数据进行重新审查和校验的过程 , 目的在于删除重复信息、纠正存在的错误 , 并提供数据一致性 。
  • 数据质量(Data Quality):有关确保数据可靠性和实用价值的过程和技术 。 高质量的数据应该忠实体现其背后的事务进程 , 并能满足在运营、决策、规划中的预期用途 。
  • 数据订阅(Data feed):一种数据流 , 例如Twitter订阅和RSS 。
  • 数据集市(Data Mart):进行数据集买卖的在线交易场所 。
  • 数据建模(Data modelling):使用数据建模技术来分析数据对象 , 以此洞悉数据的内在涵义 。
  • 数据集(Data set):大量数据的集合 。
  • 数据虚拟化(Data virtualization):数据整合的过程 , 以此获得更多的数据信息 , 这个过程通常会引入其他技术 , 例如数据库 , 应用程序 , 文件系统 , 网页技术 , 大数据技术等等 。
  • 判别分析(Discriminant analysis):将数据分类 , 按不同的分类方式 , 可将数据分配到不同的群组 , 类别或者目录 。 是一种统计分析法 , 可以对数据中某些群组或集群的已知信息进行分析 , 并从中获取分类规则 。
  • 分布式文件系统(Distributed File System):提供简化的 , 高可用的方式来存储、分析、处理数据的系统 。
  • 文件存贮数据库(Document Store Databases):又称为文档数据库 , 为存储、管理、恢复文档数据而专门设计的数据库 , 这类文档数据也称为半结构化数据 。
E
  • 探索性分析(Exploratory analysis):在没有标准的流程或方法的情况下从数据中发掘模式 。 是一种发掘数据和数据集主要特性的一种方法 。
  • 提取-转换-加载(ETL:Extract,Transform and Load):是一种用于数据库或者数据仓库的处理过程 , 天善学院有国内唯一的最全的ETL学习课程 。 即从各种不同的数据源提取(E)数据 , 并转换(T)成能满足业务需要的数据 , 最后将其加载(L)到数据库 。
G
  • 游戏化(Gamification):在其他非游戏领域中运用游戏的思维和机制 , 这种方法可以以一种十分友好的方式进行数据的创建和侦测 , 非常有效 。
  • 图形数据库(Graph Databases):运用图形结构(例如 , 一组有限的有序对 , 或者某种实体)来存储数据 , 这种图形存储结构包括边缘、属性和节点 。 它提供了相邻节点间的自由索引功能 , 也就是说 , 数据库中每个元素间都与其他相邻元素直接关联 。
  • 网格计算(Grid computing):将许多分布在不同地点的计算机连接在一起 , 用以处理某个特定问题 , 通常是通过云将计算机相连在一起 。
H