人工智能|我们不要自然地愚昧,我们要人工地智能( 六 )


所以对任何AI业务——无论是内部项目 , 还是服务客户项目而言 , 要想AI落地 , 门槛和挑战都很大 。
徐明强(微软全渠道事业部首席技术官):我看到的很多数据团队 , 他们总是看着蛋糕上面的樱桃 , 却忘了如果没有这个蛋糕 , 其实樱桃也没有存在的意义 。
樱桃是什么?数据团队说我们得把很多实时的Dash board(仪表盘)做出来 。 还有一些数据团队说致力于做出更好地决策支持模型 , 结果最后发现真正的问题是数据治理问题 。
数据是有原罪的 , 数据如果没有被救赎 , 它就没有办法发挥能力 。
数据何罪之有呢?
人工智能|我们不要自然地愚昧,我们要人工地智能
本文插图
数据的罪 , 就是四个字——“自由散慢” 。 “自由”是指很多第三方数据 , 在没搞清楚其阈或属性的情况下 , 就敢直接使用 , 有很多这样的情况存在 。
还有 , “自由”就是当你人为靠一些服务器收集数据 , 发现返回的数据是很有问题的 。
比如英国的Health Care做普查 , 结果显示80%的人都出生于1911年11月11日 , 为什么会出现这种情况?
后来发觉 , 原来是当被调查者不想回答一些非常隐私的问题时 , 他们就想输入“00” , 但系统不允许输入“00” , 于是大家都会输入“11” , 所以80%的人都在1911年11月11日出生 , 这个数据是脏的 。
“散”是指散落在各处 。 “慢”是指速度慢 。 当很多业务部门问数据团队要数据时 , 往往是需要一个报表 。 其实他们前一天就想用 , 但出于不好意思 , 就会说能不能周末给我们 。
人工智能|我们不要自然地愚昧,我们要人工地智能
本文插图
这种情况 , 如果没有SAP数据库升级的话 , 数据科学家的回答可能是该数据用时一个月都未必能出 , 会非常地慢 。
所以 , 想要把数据真正做好 , 需要很多工具支持 。 比如怎么样从原数据里把数据抽取出来 , 还有如何把“脏的”数据做好 , 等等 。
只有这样才能得到较好的结构化数据 , 让数据科学家能够在此基础上做一些实质性挖掘 , 做好模型 。 所以 , 企业必须把数据治理首先画在自己的路线图上 。
主持人(李梦平 , 微软中央市场部数字营销经理):丁磊老师有没有要补充的部分?
丁磊(人工智能首席科学家):徐博士的“自由散慢”四个字 , 总结得特别到位 , 恰如其分 。
从“自由散慢”出发 , 这些工作无论是数据科学家亲自操作 , 还是跟别的团队一起来做 , 其实大部分工作都是数据清理 。 我们知道有多少人工就有多少智能 , 大家可能觉得作为AI团队或者AI服务商 , 他们的大部分工作就是做AI模型 。 刚才徐博和顾卿华老师也提到 , 这些其实只是中间很小的一部分工作 。
人工智能|我们不要自然地愚昧,我们要人工地智能
本文插图
如果没有足够“质量好”的数据 , 一个AI团队或服务商的大部分甚至绝大部分时间 , 可能都是在做数据清理工作 。 而在不同场景下 , 对于“质量好”定义是不一样的 ,
你需要明白在不同场景下 , 到底需要质量“多好”的数据 。 但有一点毋庸置疑 , 如果输入的数据是垃圾 , 输出的模型肯定也是垃圾 。
我们现在AI公司或者AI部门 , 通常都有很多数据标注人员和数据质监人员 , 这些岗位的人数绝对比数据科学家人数多不止一个量级 。
也就是说 , 现在大部分AI企业或AI团队也在做很落地、很具体的工作 。 我觉得这是好事 , 如果忽略了这些工作 , AI的根源就是错的 , 那么AI落地也就无从谈起了 。
四、AI落地后 , 如何实现商业闭环?
主持人(李梦平 , 微软中央市场部数字营销经理):到底AI该如何落地 , 并实现闭环呢?


推荐阅读