[大数据]高通量低延迟的云环境大数据流水线架构( 四 )

  • 勤于清理的数据仓库 。 机器学习取决于数据的质量 。 要定义良好的数据采集模式 , 并做好目录 。 如果上述工作缺失 , 那么用户一定会惊讶地看到 , 以纯字节永久存储的数据浪费了大量的存储空间 。
  • 从简单之处开始 。 以无服务器架构为起步点地 , 尽可能降低管理成本 。 仅在达到合理的投资回报率的情况下 , 再迁移至功能完善的数据流水线 , 或用户自身进行部署 。 在计算阶段 , 逐步投入尽可能小规模的适量投资 。 通过调度 SQL 查询和云功能实现计算 , 甚至是实现为“无计算模式” 。 这样可以更快地准备好整个流水线 , 为用户专注于数据策略制定以及数据模式和目录提供充足的时间 。
  • 只有在经过仔细评估后 , 再着手构建 。 用户的业务目标是什么?必须使用哪些杠杆来调节业务产出?哪些洞察将是可行的?收集数据 , 并基于数据构建机器学习 。
  • 总结 本文的要点总结如下:
    • 分析调优和机器学习模型仅是总工作量的 25%;
    • 尽早投资于数据流水线 , 机器学习的优劣取决于数据的质量;
    • 对于探索性任务 , 需确保数据易于访问;
    • 从业务目标入手 , 寻求给出能落地的洞察 。
    希望本文对读者能有所帮助 。 读者在生产环境中建立可靠的数据流水线有哪些技巧?欢迎在评论中分享 。
    作者简介:
    Satish Chandra Gupta 是 Slang Labs 的合伙创始人之一 。 Slang Labs 正在构建一个使程序开发者可以轻松快速地将多语言、多模式语音增强体验(VAX)添加到移动和 Web 应用中的平台 。 设想 Alexa 或 Siri 这样的助手 , 可以运行在用户的应用内部 , 并针对用户应用量身定制 , 听上去多么令人兴奋 。
    【[大数据]高通量低延迟的云环境大数据流水线架构】 关注我并转发此篇文章 , 私信我“领取资料” , 即可免费获得InfoQ价值4999元迷你书!


    推荐阅读