如何成为一个合格的数据架构师?( 四 )


(4)前瞻性
及时告警和预警功能,提前处理问题 。
加分项:应用系统一个应用系统是怎么诞生的?可以通过软件工程这门课程学习,需求分析、概要设计、详细设计、软件开发、软件测试、试运行、上线、运维、下线等整个过程 。
一个应用系统一般会有前端、后端和数据库,对于我们数据架构师,我们至少要知道,怎么开发一个系统,怎么保证一个系统的稳定 。特别是“稳定”,我们要对高可用、负载均衡、安全有深刻的认识,需要考虑到应用(Tomat)、数据库(MySQL)、其他中间件(缓存服务、文件服务等) 。

  • 高可用:系统一个节点发生故障后能进行无感切换,这个很重要 。
  • 负载均衡:使压力均衡进行,它决定了系统的扩展性 。
  • 安全:磁盘阵列(raid0、raid1、raid5、raid10)、防火墙、授权、认证,及数据安全,防泄防篡、脱敏加密、防丢失等 。
在做架构决策时,知道哪些操作可能会影响业务系统,才能设计更好的数据架构 。
锦上添花:算法DT 时代已至,未来一定是“数据 +AI”的天下 。所以作为数据架构师,我们可以不会写算法,但我们要了解且会使用算法 。
这里的算法主要指机器学习算法,初学者可以理解下预测、分类(聚类)的概念(其实很多图像和语音识别的算法也可以归为预测和聚类算法中) 。
可以用 Python 模拟最简单的线性回归,进阶则研究逻辑回归 。
  • 监督学习算法:支持向量机 (Support Vector machine,SVM)、决策树、朴素贝叶斯分类、K- 临近算法(KNN);
  • 非监督学习算法:K- 均值聚类 (K-Means)。优点是算法简单容易实现,缺点则是可能收敛到局部最小值,在大规模数据集上收敛较慢 。可在图像处理、数据分析以及市场研究等场景应用;
  • 强化学习(深度)算法:如果不想转职算法工程师,目前仅作了解即可 。
最后分享算法开发的简化版步骤:
  1. 数据准备(数据同步);
  2. 问题明确(明确分类还是回归问题);
  3. 数据处理(合并、去重、异常剔除);
  4. 特征工程(训练集,测试集、验证集);
  5. 选择合适的算法;
  6. 模型评估(若评估不合格,则考虑:①换算法;②调参数;③特征工程再进一步处理) 。
总结:建立属于自己的知识索引其实,无论是什么岗位,自学能力都很重要 。我们可以为自己建立一个知识目录或知识索引,按照知识索引去查漏补缺,不断丰富自己 。
作为一名数据架构师,我们要懂点硬件、懂点网络、懂点安全,了解应用,熟练掌握一门开发语言,深入理解一个数据库,实操过大数据,精通数据仓库技术(建模 +ELT),有深度,有广度 。




推荐阅读