数据仓库、数据湖、湖仓一体,究竟有什么区别?(11)


7.2.3湖仓一体
 

  1. 事物支持:Lakehouse 在企业级应用中,许多数据管道通常会同时读取和写入数据 。通常多方同时使用 SQL 读取或写入数据,Lakehouse 保证支持ACID事务的一致性 。
  2. 模式实施和治理:Lakehouse 应该有一种支持模式实施和演变的方法,支持 DW 模式规范,例如 star /snowflake-schemas 。该系统应该能够推理数据完整性,并且应该具有健壮的治理和审核机制 。
  3. BI支持:Lakehouse 可以直接在源数据上使用BI工具 。这样可以减少陈旧度和等待时间,提高新近度,并且降低必须在数据湖和仓库中操作两个数据副本的成本 。
  4. 存储与计算分离:事实上,这意味着存储和计算使用单独的群集,因此这些系统能够扩展到更多并发用户和更大数据量 。一些现代数据仓库也具有这种属性 。
  5. 兼容性:Lakehouse 使用的存储格式是开放式和标准化的,例如 Parquet,并且它提供了多种 API,包括机器学习和 Python/R 库,因此各种工具和引擎都可以直接有效地访问数据 。
  6. 支持从非结构化数据到结构化数据的多种数据类型:Lakehouse 可用于存储,优化,分析和访问许多新数据应用程序所需的数据类型,包括图像,视频,音频,半结构化数据和文本 。
  7. 支持各种工作场景:包括数据科学,机器学习和 SQL 分析 。这些可能依赖于多种工具来支持的工作场景,它们都依赖于相同的数据存储库 。
  8. 端到端流式任务:实时报告是许多企业的日常需要 。对流处理的支持消除了对专门服务于实时数据应用程序的单独系统的需求 。
八、confluent调研8.1公司概况 
1、团队背景
(1)LinkedIn开发Apache Kafka实时信息列队技术的程序员,创立confluent,核心是利用Apache Kafka 。
 
  • 三个创始人:Jay Kreps(美国加州人)和清华毕业的饶军(Jun Rao)及来自印度的女生纳赫(Neha Narkhede) 。
 
2、融资情况
2021-6-25美股上市,市值143.64亿美元 。
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
3、商业化产品
商业化产品有3大类:
 
  • 主营产品:Confluent Platform,Confluent Cloud
  • 支撑产品:无法单独购买,主要用来给楼上引流,例如应用市场中的各种插件
  • 咨询服务类:例如专家服务,培训等
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
4、不同实时计算工具的对比
Spark 做批处理、Flink 做流处理、Clickhouse 做交互分析,这是最简单的一套 。再复杂一点,可能还要部署 HBase 做 KV 查询,用 ElasticSearch 做文本检索 。
产品
Spark streaming
不是特别适合于做秒级甚至亚秒级的计算
Kafka streaming
很难满足我们对大体量的复杂计算的需求
Storm
没有批处理能力
Flink
批流结合
8.2产品架构
Confluent是用来管理和组织不同数据源的流媒体平台,可以实时地把不同源和位置的数据集成到一个中心的事件流平台 。而且还强调了这个平台很可靠、性能很高,总之就是很好用,很强大 。Confluent目前提供了社区版和商业版两个版本,社区版永久免费,商业版面向企业收费 。
 
  • 社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务 。
  • 商业版为企业提供了控制面板、负载均衡,跨中心数据备份、安全防护等高级特性 。
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
(1)Confluent Control Center(控制中心),让我们很容易地管理kafka的连接,创建,编辑,和管理与其他系统的连接 。我们可以从producer到consumer监控data streams,保证我们的每一条消息都被传递,还能测量出消息的传输耗时多久 。使用confluent control center能让开发人员不写一句代码,也能构建基于kafka的数据生产管道 。
(2)Confluent Replicator(数据复制与迁移),Confluent Platform使我们可以比以往更轻松地在多个数据中心内维护多个Kafka群集 。管理数据中心之间的数据复制和topic配置,比方说:ative-active地理定位部署:允许用户访问最近(附近)的数据中心,以优化其架构,实现低延迟和高性能


推荐阅读