|持续定义Saas模式云数据仓库+实时搜索( 二 )


|持续定义Saas模式云数据仓库+实时搜索
本文插图

下图是MaxCompute和Hologres两个组件融合之后的实时分析简单架构 , 即云原生HASP系统 , 通过该架构我们可以实现实时写入和实时查询 。 与其他的OLAP应用不同的是这种架构下Hologres和MaxCompute是一体的 , 可以共享存储 , 也就是说Hologres可以直接读取MaxCompute的数据 , 大大降低了存储成本 。 通过这两个组件 , 我们还可以解决离线加速、联邦分析、交互式分析等问题 。
【|持续定义Saas模式云数据仓库+实时搜索】|持续定义Saas模式云数据仓库+实时搜索
本文插图

(二)Elasticsearch
Elasticsearch是一个开源的分布式、RESTful 风格的搜索和数据分析引擎 , 它的底层是开源库Apache Lucene 。 Elasticsearch解决了Lucene使用时的繁复性 , 功能强大 , 使用简单 , 能够提供实时搜索服务 。 Elasticsearch应用场景广泛 , 比如打车的场景中(例如滴滴打车) , 使用查询附近的车辆等功能时候 , 后台就是Elasticsearch在为搜索做支撑 , 又比如在Github中 , Elasticsearch可以帮助我们利用关键字等在站内进行检索 。 当然 , 不只是网站应用 , 包括手机APP , 只要用到站内搜索服务 , 都能够用到Elasticsearch或者其他的搜索服务应用 。
我们为什么需要搜索引擎呢?实时搜索为什么现在这么火呢?之前我们在做数据分析的时候 , 可以通过写程序的方式 , 但是写程序对于一些数据分析师来说是一个高门槛的任务 , 需要一定的学习成本 , 包括使用SQL也有一定的学习成本 。 但是有了搜索引擎之后 , 我们只需要按照一定的条件进行筛选就可以得到我们想要的信息 , 大大降低了学习成本 。
当前 , 主流的搜索引擎有两个:Solr和Elasticsearch , 两者都基于Lucene发展而来 。 Lucene是当今最先进 , 最高效的全功能开源搜索引擎框架 , 但是Lucene只是一个框架 , 且比较复杂 , 要充分利用它的功能 , 需要在其基础上进行扩展开发 , 因此有了Solr和Elasticsearch 。
|持续定义Saas模式云数据仓库+实时搜索
本文插图

下图是Google Trend中两个搜索应用的趋势分析 , 可以看出在实时搜索领域 , 近几年Elasticsearch的热度已经超过了Solr , 因为在实时搜索领域Elasticsearch的效果要好于Solr , 但是不得不提的是Solr在现有数据的基础上进行查询搜索的速度会更快一些 。
|持续定义Saas模式云数据仓库+实时搜索
本文插图

目前 , Elastic 已经宣布与阿里云建立长期合作和战略伙伴关系 。 未来阿里云Elasticsearch将会兼容开源 Elasticsearch 的功能 , 以及Security、Machine Learning、Graph、APM 等商业功能 , 致力于数据分析、数据搜索等场景服务 , 与Elastic合作 , 共同为客户提供企业级权限管控、安全监控告警、自动报表生成等场景服务 。
(三)为什么需要 MaxCompute+实时搜索
|持续定义Saas模式云数据仓库+实时搜索
本文插图

二、What:应用场景
当前 , 实时搜索的主要应用场景有三个:
1.日志和指标分析(Log/Indicator Analysis);2.安全(Security);3.站内检索(WebHosting) 。
其场景的应用逻辑如下面三张图所示:
|持续定义Saas模式云数据仓库+实时搜索
本文插图

|持续定义Saas模式云数据仓库+实时搜索


推荐阅读