Article original : How to Install Apache Airflow on Windows without Docker
Par Aviator Ifeanyichukwu
Apache Airflow est un outil qui vous aide à gérer et à planifier des pipelines de données. Selon la documentation, il vous permet de "créer, planifier et surveiller des workflows de manière programmatique".
Airflow est un outil crucial pour les ingénieurs et les scientifiques des données. Dans cet article, je vais vous montrer comment l'installer sur Windows sans Docker.
Bien qu'il soit recommandé d'exécuter Airflow avec Docker, cette méthode fonctionne pour les machines à faible mémoire qui ne peuvent pas exécuter Docker.
Prérequis :
Cet article suppose que vous êtes familiarisé avec l'utilisation de la ligne de commande et que vous pouvez configurer votre environnement de développement comme indiqué.
Exigences :
Vous avez besoin de Python 3.8 ou supérieur, Windows 10 ou supérieur, et du sous-système Windows pour Linux (WSL2) pour suivre ce tutoriel.
Qu'est-ce que le sous-système Windows pour Linux (WSL2) ?
WSL2 vous permet d'exécuter des commandes et des programmes Linux sur un système d'exploitation Windows.
Il fournit un environnement compatible Linux qui s'exécute nativement sur Windows, permettant aux utilisateurs d'utiliser des outils et des utilitaires de ligne de commande Linux sur une machine Windows.
Vous pouvez en lire plus ici pour installer WSL2 sur votre machine.
Avec Python et WSL2 installés et activés sur votre machine, lancez le terminal en recherchant Ubuntu dans le menu démarrer.
Étape 1 : Configurer l'environnement virtuel
Pour travailler avec Airflow sur Windows, vous devez configurer un environnement virtuel. Pour ce faire, vous devrez installer le package virtualenv.
Note : Assurez-vous d'être à la racine du terminal en tapant :
cd ~
pip install virtualenv
Créez l'environnement virtuel comme suit :
virtualenv airflow_env
Puis activez l'environnement :
source airflow_env/bin/activate
Étape 2 : Configurer le répertoire Airflow
Créez un dossier nommé airflow. Le mien sera situé à c/Users/[Username]. Vous pouvez mettre le vôtre où vous préférez.
Si vous ne savez pas comment naviguer dans le terminal, vous pouvez suivre les étapes dans l'image ci-dessous :
Créer un répertoire Airflow à partir du terminal
Maintenant que vous avez créé ce dossier, vous devez le définir comme variable d'environnement. Ouvrez un script .bashrc à partir du terminal avec la commande :
nano ~/.bashrc
Puis écrivez ce qui suit :
AIRFLOW_HOME=/c/Users/[YourUsername]/airflow
Configurer le chemin du répertoire Airflow comme variable d'environnement
Appuyez sur ctrl s et ctrl x pour quitter l'éditeur nano.
Cette partie du répertoire Airflow sera enregistrée en permanence comme variable d'environnement. Chaque fois que vous ouvrez un nouveau terminal, vous pouvez récupérer la valeur de la variable en tapant :
cd $AIRFLOW_HOME
Naviguer vers le répertoire Airflow en utilisant la variable d'environnement
Étape 3 : Installer Apache Airflow
Avec l'environnement virtuel toujours actif et le répertoire courant pointant vers le dossier Airflow créé, installez Apache Airflow :
pip install apache-airflow
Initialisez la base de données :
airflow db init
Créez un dossier nommé dags à l'intérieur du dossier airflow. Cela sera utilisé pour stocker tous les scripts Airflow.
Voir les fichiers et dossiers générés par Airflow db init
Étape 4 : Créer un utilisateur Airflow
Lorsque Airflow est nouvellement installé, vous devez créer un utilisateur. Cet utilisateur sera utilisé pour se connecter à l'interface utilisateur d'Airflow et effectuer certaines fonctions d'administration.
airflow users create --username admin --password admin --firstname admin --lastname admin --role Admin --email youremail@email.com
Vérifiez l'utilisateur créé :
airflow users list
Créer un utilisateur Airflow et lister l'utilisateur créé
Étape 5 : Exécuter le serveur web
Exécutez le planificateur avec cette commande :
airflow scheduler
Lancez un autre terminal, activez l'environnement virtuel airflow, cd à $AIRFLOW_HOME, et exécutez le serveur web :
airflow webserver
Si le port par défaut 8080 est utilisé, changez le port en tapant :
airflow webserver --port <port number>
Connectez-vous à l'interface utilisateur en utilisant le nom d'utilisateur créé précédemment avec "airflow users create".
Dans l'interface utilisateur, vous pouvez voir les DAGs pré-créés qui viennent avec Airflow par défaut.
Comment créer le premier DAG
Un DAG est un script Python pour organiser et gérer des tâches dans un workflow.
Pour créer un DAG, naviguez dans le dossier dags créé à l'intérieur du répertoire $AIRFLOW_HOME. Créez un fichier nommé "hello_world_dag.py". Utilisez VS Code si disponible.
Entrez le code de l'image ci-dessous, et enregistrez-le :
Exemple de script DAG dans l'éditeur VS Code
Allez dans l'interface utilisateur d'Airflow et recherchez hello_world_dag. Si cela n'apparaît pas, essayez de rafraîchir votre navigateur.
C'est tout. Cela complète l'installation d'Apache Airflow sur Windows.
Conclusion
Ce guide a couvert comment installer Apache Airflow sur une machine Windows sans Docker et comment écrire un script DAG.
J'espère que les étapes décrites ci-dessus vous ont aidé à installer Airflow sur votre machine Windows sans Docker.
Dans les articles suivants, vous apprendrez les concepts et les composants d'Apache Airflow.
Suivez-moi sur Twitter ou LinkedIn pour plus de contenu sur l'ingénierie des données.