科学|学一两门课程可搞不定数据科学,你得经过这五个阶段


北京联盟_本文原题:学一两门课程可搞不定数据科学 , 你得经过这五个阶段
很多人认为学习数据科学是一个线性过程 。 事实上 , 它是个有些凌乱的发展过程 , 更像是一系列平台期构成的 。
科学|学一两门课程可搞不定数据科学,你得经过这五个阶段
本文插图
普遍以为的学习曲线vs真实的学习曲线

幸运的是 , 已经有一个相当不错的一般性的学习模型 , 解释了这些平台期是如何起作用的 。 这个模型是Noel Burch在20世纪70年代创造的 , 又由Robert Greene在《Mastery》一书中进行了扩充 。
根据这个模型的框架 , 我们的学习要经历五个阶段:从无意识的未掌握 , 到有意识的未掌握 , 到有意识的掌握 , 到无意识的掌握 , 最后是精通 。 学习数据科学同样遵循这个过程 。
科学|学一两门课程可搞不定数据科学,你得经过这五个阶段
本文插图
Noel Burch和Robert Greene提出的学习五阶段

在这篇文章里 , 作者会在数据科学的语境下解释学习的每个阶段 , 并将谈谈他在每个阶段的经验 , 以及发现的一些捷径——从一个阶段突破瓶颈到下一阶段的最快方法 。
阶段一:无意识且未掌握(完全新手期) 在这个级别 , 你刚刚开始进入数据科学领域 。 你几乎没有什么编程或统计学方面的经验 。 这个阶段的学习者一般会过度自信 。 很多人认为学一两门课程就能掌握这个领域 。
这也是我刚出校门时的感觉 。 有几门经济学课程打底 , 我觉得自己已经准备好进入体育分析领域了 。 学习数据科学只是顺理成章的下一步 。 从高处俯瞰 , 这个领域似乎很简单:你只需要找到数据中的趋势以获得一些洞察 , 简单吧?
不用说 , 我完全想错了 。 开始学习编程后 , 我陷入了无望的迷茫当中 。 我开始整合自己需要学习的所有各种概念 , 而这个任务有时简单 , 有时极度艰巨 。
为了从阶段一进入阶段二 , 你需要初步理解什么是数据科学 , 掌握它需要懂得哪些编程和数学概念 。 我推荐看一些YouTube视频、接触一些Python编程来达到这种理解 。
阶段二:有意识但未掌握(畏惧期) 一旦你开始觉得编程和数学的世界大到让人不知所措 , 你已经到了第二阶段 。 在这个阶段 , 很多人都会卡住 , 甚至放弃 。 此时 , 你开始知道数据科学的水有多深 。 要学的东西太多了 , 不知道从哪下手 。
走通这个阶段的关键 , 是把数据科学分解成若干小步 。 你需要从某处开始 。 在最基本的层面上 , 你需要懂一些编程(Python或者R)和简单的统计学 。 找一些在线资源来了解这些方面 。 我推荐学一些免费的编程或数据科学课程(kaggle.com的微课程是我的最爱) 。
在这个阶段缓解我的不知所措的 , 是我关于自己为什么要学习这个领域的思考 。 我脑海里有一个具体的项目 。 我想要构建一个模型 , 来改进我当时在玩的daily fantasy sports的结果 。 如果我只专注于建模所必需的技能 , 我就可以让数据科学显得范围小很多 , 也更可控 。
注:daily fantasy sports , 是一种虚拟和现实结合的体育游戏 , 玩家可以扮演球队经理 , 选择真实球员组成自己的球队 , 球队积分根据球员在真实世界中的比赛表现来判定 。
要想进入下一阶段 , 我建议就一个具体问题进行开发和打磨 , 这样可以让你的学习范围更小 。 相较于学习整个的数据科学领域 , 了解完成单个的项目需要学什么是更容易的 。 做一个小项目也没有“学习python”或者“学习统计学”那么令人生畏 , 因为后者过于宽泛和模糊 。 在早期阶段 , 你真的只要有编程和统计学的基础知识就可以进行数据科学的实践 。 如果你能做几个小项目 , 你就顺利上路了 。
我也建议你在kaggle上研究一下别人的代码 。 你可能完全看不懂 , 但是不要慌 。 渐渐地 , 你会开始能理解它们 , 而读大量代码就是这个过程的起点 。 把你看到但不懂的术语、包和算法列个清单 。 每天研究其中的几个 , 尝试把它们弄明白 。 你会惊讶于你在几周内就能走出很远 。


推荐阅读