IT新经济|为日均服务十亿人次做准备,美团数据团队如何走在业务前想问题( 三 )


在谈到如何定义一个好的数据团队时 , 李闻如此回应 。 因为美团属于跨业务线、多BG的模式 , 这让每个业务线的数据都存在很大的可复用性 。 那么 , 如何在兼顾安全的前提下 , 让各业务线能够更高效地用到跨团队数据呢?这也是业界不少数据团队在建设初期面临的一个比较棘手的问题 。
美团目前的解决方案称之为“分场景分角色安全域” , 即在整个数据体系中按照数据、算法、商业分析分场景分角色建立安全域 , 在保障数据安全的同时 , 简化授权模型 , 建立起一套比较清晰的数据权责体系 , 减少数据供给方和需求方的数据交换成本 。
另外 , 沟通机制和认知提升也很重要 , 美团数据团队不倾向于把大数据和业务线分隔得太清晰 , 一方面直接深入到业务线 , 积极响应每一条业务线的需求 , 另一方面也在构建底层基础能力 , 大力研发 , 不断进阶 , 为未来的业务发展做好充足的准备 。
大数据平台是重要“基础设施” , 支撑AI和大数据两条线
此外 , 为了让整个工程团队和基础架构团队能够最大效率地发挥效用 , 美团的大数据平台和机器学习平台是在组织和平台技术上是重合的 , 这种设置在业界也非常少见 。
众所周知 , AI是目前互联网领域炙手可热的“明星” , 无论是老牌“巨头” , 还是流量“新贵” , 都在大力研发AI技术 , 为自家的业务赋能 。
在刚刚过去的世界人工智能大会上 , 美团首席科学家夏华夏首次公开呈现了美团AI的建设图谱 , 在这一图谱中能看到李闻所在的大数据平台部门是美团AI建设的一个重要“基础设施” , 同时支持着大数据和机器学习两条线 。 他认为 , 公司数据团队之所以发展成这种形式 , 从本质上讲 , 是因为大数据和机器学习两个领域底层的基础设施和能力实际上是可以“共用”的 , 包括一些工程方法也比较类似 。

IT新经济|为日均服务十亿人次做准备,美团数据团队如何走在业务前想问题
本文插图

李闻说:“大数据和机器学习平台技术 , 其实在技术角度没有清晰边界 , 在其他公司强行拆在两个团队 , 更多是组织和人的原因 。 ”
“比如做数据清洗 , 一样会用到数据挖掘算法 , 做一些深度学习中前置的特征处理或者特征准备 , 实际都在用大数据的技术 。 其次 , 大数据和机器学习底层的一些架构技术、工程方法和能力模型实际是很类似的 , 包括一些分布式的技术 , 都是可以复用的 。 美团这种组织形式 , 在实际工作中 , 确实对提高工作效率有非常大的助力 。 ”
数据治理老大难 , 在支撑和治理间寻求平衡
由于美团的业务线众多 , 应用场景也非常复杂 , 跟其他互联网公司一样 , 美团也在同样面临着数据治理的问题 。 在业界 , 数据治理有两大难题:数据资产治理和数据成本治理 , 其中数据成本相较于业务成本的投入会呈现长期累加的特征 。 那么 , 如何在效率和成本之间找到平衡 , 李闻详细讲述了美团采取的自主摸索的方法 。
据李闻介绍 , 从数据源头整个加工到产出报表再到使用 , 其链条会非常长 , 涉及的角色也非常多 , 变量也很多 , 伴随着业务系统的变化 , 中间的数据逻辑 , 以及指标口径定义也会随之变化 。 如何去管理这样的一些变化 , 去拿到一些预期的数据结果 , 就是一件非常具有挑战的事情 。
数据平台团队作为公司中心化技术团队 , 同时需要扮演两种角色 , 一方面要以客户为中心 , 提供能力支撑好公司各业务在大数据和算法领域的工程技术需求 , 另一方面同时要扮演公司的治理抓手 , 驱动整个数据、算法体系成本、效率、质量、安全的提高 , “我们本质上有两拨客户 , 一波是公司各业务数据、算法研发 , 一波是公司管理层 , 同时满足好两拨客户的诉求 , 是需要极大的韧性、极强的技术能力的” , 在谈及数据治理问题时 , 李闻表示 。


推荐阅读