Apache Airflow的完整介绍( 三 )


现在 , 我们需要返回Airflow Web UI并使用此JSON文件的输出更新bigquery_default连接 。您还需要添加一个默认的项目ID , 如下所示 。

Apache Airflow的完整介绍

文章插图
 
我们还需要在Google Pipenv环境中安装一些Google Cloud依赖项 。我已经安装了以下内容 。
pipenv install google-cloud-storage httplib2 google-api-python-client google-cloud-bigquery pandas_gbq
创建DAG以下是将执行上述步骤的DAG的代码 。应将其另存为.py文件在我们之前创建的dags目录中 。
DAG的顶部是必需的进口 。Airflow提供了一系列运营商 , 可在Google Cloud Platform上执行大多数功能 。我已经导入了BigQueryOperator(用于运行查询和加载数据)和BigQueryCheckOperator(用于检查特定日期的数据是否存在) 。
在DAG的下一部分中 , 我们定义dag_args , 然后创建DAG , 该DAG提供诸如dag_id , start_date和应该多长时间运行一次任务等信息 。Airflow使用CRON表达式定义时间表 , 有关这些表达式的更多信息 , 请访问此页面 。
然后 , 我们将每个步骤定义为一项任务 , 我将其定义为变量t1和t2 。这些任务均在工作流程中执行特定步骤 。这些命令的运行顺序位于DAG的最底部 。
现在 , 我们可以转到Web UI并运行DAG 。
Apache Airflow的完整介绍

文章插图
 
如果我们转到BigQuery控制台 , 我们还将看到Airflow已创建并加载了数据的表 。
Apache Airflow的完整介绍

文章插图
 
本文旨在作为一个完整的介绍 , 让您开始使用Airflow创建第一个DAG并开始运行 。有关更详细的使用指南 , 请在此处找到Airflow文档 。
可以在此Github存储库中找到本文详细介绍的完整项目的链接 。
谢谢阅读!
如果您想加入 , 我会每月发送一次通讯 , 请通过此链接注册 。期待成为您学习之旅的一部分!
(本文翻译自Rebecca Vickery的文章《A Complete Introduction to Apache Airflow》 , 参考:https://towardsdatascience.com/a-complete-introduction-to-apache-airflow-b7e238a33df)




推荐阅读