中国统计网|100+数据分析指标术语 | 超全指标字典快收好!(下)( 五 )


  • 相似性搜索(Similarity searches):在数据库中查询最相似的对象 , 这里所说的数据对象可以是任意类型的数据 。
  • 仿真分析(Simulation analysis):仿真是指模拟真实环境中进程或系统的操作 。 仿真分析可以在仿真时考虑多种不同的变量 , 确保产品性能达到最优 。
  • 软件即服务(SaaS:Software-as-a-Service):基于Web的通过浏览器使用的一种应用软件 。
  • 空间分析(Spatial analysis):空间分析法分析地理信息或拓扑信息这类空间数据 , 从中得出分布在地理空间中的数据的模式和规律 。
  • SQL:在关系型数据库中 , 用于检索数据的一种编程语言 。
  • 流处理(Stream processing):流处理旨在对有“连续”要求的实时和流数据进行处理 。 结合流分析 , 即在流内不间断地计算数学或统计分析的能力 。 流处理解决方案旨在对高流量进行实时处理 。
T
  • 时序分析(Time series analysis):分析在重复测量时间里获得的定义良好的数据 。 分析的数据必须是良好定义的 , 并且要取自相同时间间隔的连续时间点 。
  • 拓扑数据分析(Topological Data Analysis):拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义 。
  • 交易数据(Transactional data):随时间变化的动态数据
  • 透明性(Transparency):–消费者想要知道他们的数据有什么作用、被作何处理 , 而组织机构则把这些信息都透明化了 。
  • 文本挖掘(Text Mining):对包含自然语言的数据的分析 。 对源数据中词语和短语进行统计计算 , 以便用数学术语表达文本结构 , 之后用传统数据挖掘技术分析文本结构 。
U
  • 非结构化数据(Un-structured data):非结构化数据一般被认为是大量纯文本数据 , 其中还可能包含日期 , 数字和实例 。
V
  • 价值(Value):(译者注:大数据4V特点之一)所有可用的数据 , 能为组织机构、社会、消费者创造出巨大的价值 。 这意味着各大企业及整个产业都将从大数据中获益 。
  • 可变性(Variability):也就是说 , 数据的含义总是在(快速)变化的 。 例如 , 一个词在相同的推文中可以有完全不同的意思 。
  • 多样(Variety):(译者注:大数据4V特点之一)数据总是以各种不同的形式呈现 , 如结构化数据 , 半结构化数据 , 非结构化数据 , 甚至还有复杂结构化数据
  • 高速(Velocity):(译者注:大数据4V特点之一)在大数据时代 , 数据的创建、存储、分析、虚拟化都要求被高速处理 。
  • 真实性(Veracity):组织机构需要确保数据的真实性 , 才能保证数据分析的正确性 。 因此 , 真实性(Veracity)是指数据的正确性 。
  • 可视化(Visualization):只有正确的可视化 , 原始数据才可被投入使用 。 这里的“可视化”并非普通的图型或饼图 , 可视化指是的复杂的图表 , 图表中包含大量的数据信息 , 但可以被很容易地理解和阅读 。
  • 大量(Volume):(译者注:大数据4V特点之一)指数据量 , 范围从Megabytes至Brontobytes 。
W