中国统计网|100+数据分析指标术语 | 超全指标字典快收好!(下)( 四 )


  • 操作型数据库(Operational Databases):这类数据库可以完成一个组织机构的常规操作 , 对商业运营非常重要 , 一般使用在线事务处理 , 允许用户访问、收集、检索公司内部的具体信息 。
  • 优化分析(Optimization analysis):在产品设计周期依靠算法来实现的优化过程 , 在这一过程中 , 公司可以设计各种各样的产品并测试这些产品是否满足预设值 。
  • 本体论(Ontology):表示知识本体 , 用于定义一个领域中的概念集及概念之间的关系的一种哲学思想 。 (译者注:数据被提高到哲学的高度 , 被赋予了世界本体的意义 , 成为一个独立的客观数据世界)
  • 异常值检测(Outlier detection):异常值是指严重偏离一个数据集或一个数据组合总平均值的对象 , 该对象与数据集中的其他它相去甚远 , 因此 , 异常值的出现意味着系统发生问题 , 需要对此另加分析 。
  • 联机分析处理(On-Line Analytical Processing , OLAP):能让用户轻松制作、浏览报告的工具 , 这些报告总结相关数据 , 并从多角度分析 。
P
  • 模式识别(Pattern Recognition):通过算法来识别数据中的模式 , 并对同一数据源中的新数据作出预测
  • 平台即服务(PaaS:Platform-as-a-Service):为云计算解决方案提供所有必需的基础平台的一种服务 。
  • 预测分析(Predictive analysis):大数据分析方法中最有价值的一种分析方法 , 这种方法有助于预测个人未来(近期)的行为 , 例如某人很可能会买某些商品 , 可能会访问某些网站 , 做某些事情或者产生某种行为 。 通过使用各种不同的数据集 , 例如历史数据 , 事务数据 , 社交数据 , 或者客户的个人信息数据 , 来识别风险和机遇 。
  • 公共数据(Public data):由公共基金创建的公共信息或公共数据集 。
Q
  • 数字化自我(Quantified Self):使用应用程序跟踪用户一天的一举一动 , 从而更好地理解其相关的行为 。
R
  • R:是一种编程语言 , 在统计计算方面很出色 。 如果你不知道 R , 你就称不上是数据科学家 。 R 是数据科学中最受欢迎的语言之一 。
  • 再识别(Re-identification):将多个数据集合并在一起 , 从匿名化的数据中识别出个人信息 。
  • 回归分析(Regression analysis):确定两个变量间的依赖关系 。 这种方法假设两个变量之间存在单向的因果关系(译者注:自变量 , 因变量 , 二者不可互换) 。
  • 实时数据(Real-time data):指在几毫秒内被创建、处理、存储、分析并显示的数据 。
  • 推荐引擎(Recommendation engine):推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品 。
  • 路径分析(Routing analysis):–针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径 , 以达到降低燃料费用 , 提高效率的目的 。
S
  • 半结构化数据(Semi-structured data):半结构化数据并不具有结构化数据严格的存储结构 , 但它可以使用标签或其他形式的标记方式以保证数据的层次结构 。
  • 结构化数据(Structured data):可以组织成行列结构 , 可识别的数据 。 这类数据通常是一条记录 , 或者一个文件 , 或者是被正确标记过的数据中的某一个字段 , 并且可以被精确地定位到 。
  • 情感分析(Sentiment Analysis):通过算法分析出人们是如何看待某些话题 。