Apache四个大型开源数据和数据湖系统( 二 )


在Hudi系统的帮助下 , 很容易在MySQL , HBase和Cassandra中收集增量数据 , 并将其保存到Hudi 。然后 , presto , spark和hive可以快速阅读这些递增更新的数据 。

Apache四个大型开源数据和数据湖系统

文章插图
 
Apache Iotdb它是一种物联网时间序列工业数据库 , Apache IOTDB是一款集成 , 存储 , 管理和Anallyze Thge IoT时间序列数据的软件系统 。Apache IOTDB采用具有高性能和丰富功能的轻量级架构 , 并与Apache Hadoop , Spark和Flink等进行深度集成 , 可以满足工业中大规模数据存储 , 高速数据读数和复杂数据分析的需求事物互联网领域 。
Apache IOTDB套件由多个组件组成 , 它们一起形成一系列功能 , 例如“数据收集 - 数据写入数据存储 - 数据查询 - 数据可视化数据分析” 。其结构如下:
用户可以导入从设备上的传感器收集的时间序列数据 , 服务器负载和CPU内存等消息队列中的时间序列数据 , 时间序列数据 , 应用程序的时间序列数据或从其他数据库到本地或远程IOTDB的时间序列数据JDBC 。在 。用户还可以直接将上述数据写入本地(或在HDFS上)TSFile文件 。TSFile文件可以写入HDF , 以实现数据处理平台的数据处理平台等异常检测和机器学习等数据处理任务 。对于写入HDFS或本地的TSFile文件 , 您可以使用TSFile-Hadoop或TSFile-Spark连接器来允许Hadoop或Spark处理数据 。分析结果可以写回TSFile文件 。IOTDB和TSFile还提供相应的客户端工具 , 以满足用户在SQL , 脚本和图形格式中查看数据的需求 。
(本文由闻数起舞翻译自José Francisco Caiceo的文章《Four great Apache systems for big data and data lake, Apache ShardingSphere, Apache Iceberg, Apache Hudi and Apache IoTDB》 , 转载请注明出处 , 原文链接:
https://medium.com/cloud-believers/four-great-apache-systems-for-big-data-and-data-lake-apache-shardingsphere-apache-iceberg-238485129944)

【Apache四个大型开源数据和数据湖系统】


推荐阅读