人世繁华|「涛思数据」采用开源商业模式,专为物联网优化设计大数据平台

开源 , 全称为开源代码 , 用户可利用源代码进行修改和学习 , 开源软件的最大特点应该是开放 , 任何人都可以得到软件的源代码加以修改学习 , 甚至重新发放 。 同时 , 开源可以吸引全球开发者的关注 , 其中一部分还可以成为贡献者 , 是全球协作开发、吸引全球人才的最好方式 。
随着RedHat被IBM以340亿美元收购 , MongoDB、ElasticSearch等成功上市 , 开源软件 , 特别是开源核心代码(Open Core)的模式 , 已经被证明是成功的商业模式 。
而专注于实时大数据的采集、存储、查询与分析的数据服务商涛思数据也将开源作为了其企业的商业模式 。 涛思数据不依赖任何开源或第三方软件 , 开发了拥有自主知识产权、自主可控的高性能分布式时序空间数据引擎TDengine , 并在2019年7月份正式对外开源 。
人世繁华|「涛思数据」采用开源商业模式,专为物联网优化设计大数据平台随着大数据行业的不断升温、物联网市场的百鸟争鸣以及车联网的日渐成熟 , 创业者逐渐瞄准了大数据处理平台方向 。 但通常的大数据处理平台是将开源的Kafka、Redis,、Hbase,、MongoDB、Cassandra、 ES、Hadoop、 Spark、Zookeeper等大数据软件拼装起来 , 利用非结构化数据技术及集群来处理海量数据 。
而此类大数据处理平台牵涉到多种系统 , 每种系统有自己的开发语言和工具 , 开发精力大部分花在了系统联调上 , 而且数据的一致性难以保证 。 同时 , 每个系统都会有自己的运维后台 , 会为企业带来更高的运维代价 , 出问题后难以跟踪解决 , 系统的不稳定性大幅上升 。
物联网、车联网等此类数据主要是结构化数据 , 而用非结构化数据技术来处理结构化数据 , 整体性能不够、系统资源消耗大 , 并且因为多套系统 , 集成复杂 , 数据需要在各系统之间传输 , 会造成额外的运行代价 , 如若再得不到专业服务 , 项目实施周期长 , 导致人力攀升 , 利润急剧缩水 。
涛思数据发布的分布式时序空间数据引擎TDengine作用逐渐显露 。
创始人兼CEO陶建辉向创业邦介绍道 , TDengine定义了创新的时序数据存储结构 , 通过采用无锁设计和多核技术 , TDengine 让数据插入和读出的速度比现有通用数据库高了10倍以上 。
并且单核一秒就可处理2万以上插入请求 , 插入数百万数据点 , 可从硬盘读出一千万以上数据点 。 同时 , 数据都会有预聚合处理 , 多表聚合查询保证只扫描一次数据文件 , 查询速度以数量级倍数提升 , 8核服务器处理100亿条记录的平均值计算不到2秒 。
TDengine不仅在性能上有大幅度提升 , 总成本也得到大量降低 。 首先 , 由于TDengine的超强性能 , 计算资源才不到通用大数据方案的1/5 , 并且通过列式存储和先进的压缩算法 , 存储空间不到通用数据库的1/10;其次 , TDengine不用再集成Kafka、 Redis、Spark、HBase等系列软件 , 系统架构得到大幅简化 , 使得产品研发成本大幅下降;
【人世繁华|「涛思数据」采用开源商业模式,专为物联网优化设计大数据平台】最后 , TDengine不用分库分表、不分历史库、实时库 , 数据实时备份 , 实现零管理 , 使得运维成本大幅下降 。
人世繁华|「涛思数据」采用开源商业模式,专为物联网优化设计大数据平台最值得一提的是 , TDengine使用标准的SQL语法 , 并支持C/C++、JAVA、GO、Python、 RESTful接口 , 应用API与MySQL高度相似 , 与第三方工具Telegraf、Grafana等无缝链接 , 让学习成本几乎为零 。
面对如此高性能的数据引擎实行开源的商业模式 , 哪些模块实行开源、涛思数据销售什么等等类似问题接踵而来 。 陶建辉表示 , TDengine的所有基本功能 , 特别是展现技术优势的模块都会开源 , 反而是一些辅助性的功能不实行开源 。 TDengine需要将存储引擎、查询计算引擎、RPC等等的核心模块开源 , 如果这些核心模块不开源 , 难以说服开发者使用 。


推荐阅读