|浪潮信息:企业互联网化下的数据平台升级 | 云·创课程实录


主讲人 | 浪潮信息 乔鑫张康 编辑整理量子位编辑 | 公众号 QbitAI
6月中旬起 , 量子位发起了以数据库为主题的系列公开课 , 邀请来自浪潮信息、蚂蚁集团、腾讯云等头部企业的数据库技术线负责人 , 围绕数据库的行业现状、趋势与技术进展等内容 , 以线上直播的形式为大家带来3期分享 。
第二期直播中 , 浪潮信息数据库产品线总经理—乔鑫讲述了HTAP数据库的技术原理、优化方案以及开发部署概要等技术问题 , 为数百位观众带来前瞻的指导 。
直播回放链接:私信量子位关键词“数据库”;以下是分享内容实录:
当前数据库行业市场趋势
当前大数据时代 , 数据量持续的爆发 。 在行业权威报告中 , 我们能够从定性到定量有一个更清晰的认知:
|浪潮信息:企业互联网化下的数据平台升级 | 云·创课程实录
本文插图

从1970年到2005年 , 甚至2010年 , 数据的发展相对来讲比较缓慢 , 并且大部分数据是结构化数据 。 从2015年到2020年 , 数据量有了爆发性的增长 。 一方面 , 结构化数据在持续增长 , 另一方面 , 非结构化数据迅速增加 。 在2015年时 , 结构化数据与非结构化数据各占半壁江山 , 但到了2020年时 , 结构化数据约占1/5 , 非结构化数据将占到4/5 。
随着互联网、云计算、大数据的普及 , 数据量增长速度加快 , 数据的类型也更加丰富多样 。 根据IDC的预估来看 , 2020年整个数据量能达到50ZB , 到2025年整体数据量将达到175ZB 。
数据的结构分类
结构化数据、非结构化数据、半结构化数据都表示什么?
用技术的语言来讲 , 能用二维表的方式表现出来的数据就是结构化数据 , 用关系型数据库来做相应的支撑和存储 。 结构化数据典型性的代表 , 有:银行账户信息、企业CRM、ERP信息等数据 , 包括我们在上学时的档案信息等 。
与结构化数据相对应的就是非结构化的数据 , 结构化的数据是用二维表能够进行表现、存储管理 , 非结构化数据无法用二维表去表现和存储 。 非结构化数据的结构不规则、不完整 , 没有预定义的数据模型 。 比如我们通常看到的文本数据、图像数据、音视频数据等都属于非结构化数据 。
在结构化数据和非结构化数据之间 , 还有半结构化数据 。 半结构化数据、包含相关标记 , 用一些分隔符可以对数据进行相应的分割 , 但是实际上里面还是有大量的数据的结构是不规则的 。 邮件、html、xml等都是常见的半结构化数据 。
数据的价值分类
上述分类是根据数据的类型进行分类 , 我们也尝试着根据数据的价值分类 , 分为稠密数据和稀疏数据 。
|浪潮信息:企业互联网化下的数据平台升级 | 云·创课程实录
本文插图

稠密数据具有三大特点 , 首先是价值密度比较大 , 数据容量较小 。 以金融行业为例 , 信用卡的数据就是稠密数据 , 用户的每一条消费记录都是有价值、不能丢失的 。 稠密数据的数据量通常是在GB到TB级别 , 少数能达到PB级 , 它的数据容量相对来讲还比较小 。 其次稠密数据的变更相对比较频繁 , 数据流量比较小 。
稀疏数据也有三大特点 , 首先是数据价值密度比较小 , 但整个的数据的容量是比较大的 , 有几百TB甚至达到几十PB的规模 。 其次稀疏数据产生的速度比较快 , 数据来源比较多样 。 比如拍摄视频的摄像头 , 一天24小时都在记录、产生大量的数据 , 但是这些数据里的价值密度相对比较小 , 可能只有在发生某些事故时 , 我们去查看对应的某一段或者是某几帧来了解事故的情况 , 才体现出一些价值 。
|浪潮信息:企业互联网化下的数据平台升级 | 云·创课程实录
本文插图

针对稠密的数据和稀疏的数据 , 我们用什么样的架构来进行支撑呢?


推荐阅读