Collecte et entreposage de données YouTube à l'aide de SQL, MongoDB et Streamlit
https://iambitttu-youtube-data-harvesting-and-warehousing-ytub-k90wgj.streamlit.app/
Introduction
YouTube Data Harvesting and Warehousing est un projet qui vise à permettre aux utilisateurs d'accéder et d'analyser les données de plusieurs chaînes YouTube. Le projet utilise SQL, MongoDB et Streamlit pour créer une application conviviale qui permet aux utilisateurs de récupérer, de stocker et d'interroger des données de chaîne YouTube et de vidéo.
Aperçu du projet
Le projet de collecte et d'entreposage de données YouTube comprend les éléments suivants :
- Application Streamlit : une interface utilisateur conviviale construite à l'aide de la bibliothèque Streamlit, permettant aux utilisateurs d'interagir avec l'application et d'effectuer des tâches de récupération et d'analyse de données.
- Intégration de l'API YouTube : intégration avec l'API YouTube pour récupérer les données de chaîne et de vidéo en fonction de l'ID de chaîne fourni.
- MongoDB Data Lake : Stockage des données récupérées dans une base de données MongoDB, offrant une solution flexible et évolutive pour stocker des données non structurées et semi-structurées.
- SQL Data Warehouse : Migration des données du lac de données vers une base de données SQL, permettant une interrogation et une analyse efficaces à l'aide de requêtes SQL.
- Visualisation des données : présentation des données récupérées à l'aide des fonctionnalités de visualisation de données de Streamlit, permettant aux utilisateurs d'analyser les données à l'aide de tableaux et de graphiques.
Technologies utilisées
Les technologies suivantes sont utilisées dans ce projet :
- Python : langage de programmation utilisé pour créer l'application et les tâches de script.
- Streamlit : une bibliothèque Python utilisée pour créer des applications Web interactives et des visualisations de données.
- API YouTube : l'API Google est utilisée pour récupérer les données de chaîne et de vidéo de YouTube.
- MongoDB : une base de données NoSQL utilisée comme lac de données pour stocker les données YouTube récupérées.
- SQL (MySQL) : base de données relationnelle utilisée comme entrepôt de données pour stocker les données YouTube migrées.
- SQLAlchemy : une bibliothèque Python utilisée pour la connectivité et l'interaction des bases de données SQL.
- Pandas : une bibliothèque de manipulation de données utilisée pour le traitement et l'analyse des données.
- Matplotlib : Une bibliothèque de visualisation de données utilisée pour créer des tableaux et des graphiques.
Installation et configuration
Pour exécuter le projet de collecte et d'entreposage de données YouTube, procédez comme suit :
- Installer Python : installez le langage de programmation Python sur votre machine.
- Installer les bibliothèques requises : installez les bibliothèques Python nécessaires à l'aide du gestionnaire de packages pip ou conda. Les bibliothèques requises incluent Streamlit, le pilote MongoDB, SQLAlchemy, Pandas et Matplotlib.
- Configurer l'API Google : configurez un projet API Google et obtenez les informations d'identification API nécessaires pour accéder à l'API YouTube.
- Configurer la base de données : configurez une base de données MongoDB et une base de données SQL (MySQL) pour stocker les données.
- Configurer l'application : mettez à jour le fichier de configuration ou les variables d'environnement avec les informations d'identification API et les détails de connexion à la base de données nécessaires.
- Exécutez l'application : lancez l'application Streamlit à l'aide de l'interface de ligne de commande.
Usage
Une fois le projet configuré et exécuté, les utilisateurs peuvent accéder à l'application Streamlit via un navigateur Web. L'application fournira une interface utilisateur où les utilisateurs pourront effectuer les actions suivantes :
- Saisissez un identifiant de chaîne YouTube pour récupérer les données de cette chaîne.
- Stockez les données récupérées dans le lac de données MongoDB.
- Collectez et stockez les données de plusieurs chaînes YouTube dans le lac de données.
- Sélectionnez un canal et migrez ses données du lac de données vers l'entrepôt de données SQL.
- Recherchez et récupérez des données de la base de données SQL à l'aide de diverses options de recherche.
- Effectuez l’analyse et la visualisation des données à l’aide des fonctionnalités fournies.
Caractéristiques
L'application YouTube Data Harvesting and Warehousing offre les fonctionnalités suivantes :
- Récupération des données de chaîne et vidéo de YouTube à l'aide de l'API YouTube.
- Stockage des données dans une base de données MongoDB en tant que lac de données.
- Migration des données du lac de données vers une base de données SQL pour des requêtes et des analyses efficaces.
- Recherche et récupération de données à partir de la base de données SQL à l'aide de différentes options de recherche, notamment la jointure de tables.
- Analyse et visualisation des données via des tableaux et des graphiques à l'aide des capacités de visualisation de données de Streamlit.
- Prise en charge de la gestion de plusieurs chaînes YouTube et de la gestion de leurs données.
Améliorations futures
Voici quelques améliorations futures potentielles du projet de collecte et d'entreposage de données YouTube :
- Authentification et gestion des utilisateurs : implémentez des fonctionnalités d'authentification et de gestion des utilisateurs pour sécuriser l'accès à l'application.
- Collecte de données programmée : configurez régulièrement la collecte de données automatisée pour les chaînes YouTube sélectionnées.
- Recherche et filtrage avancés : améliorez la fonctionnalité de recherche pour permettre des critères de recherche et des options de filtrage plus avancés.
- Sources de données supplémentaires : étendez le projet pour prendre en charge la récupération de données à partir d'autres plateformes de médias sociaux ou services de streaming.
- Analyse avancée des données : intégrez des techniques d'analyse avancées et des algorithmes d'apprentissage automatique pour obtenir des informations plus approfondies sur les données YouTube.
- Exportation et création de rapports : ajoutez des fonctionnalités pour exporter des données et générer des rapports dans différents formats pour une analyse et un partage plus approfondis.
Conclusion
Le projet YouTube Data Harvesting and Warehousing fournit un outil puissant pour récupérer, stocker et analyser les données des chaînes YouTube et des vidéos. En tirant parti de SQL, MongoDB et Streamlit, les utilisateurs peuvent facilement accéder et manipuler les données YouTube dans une interface conviviale. Le projet offre des capacités de flexibilité, d'évolutivité et de visualisation des données, permettant aux utilisateurs d'obtenir des informations sur la grande quantité de données YouTube disponibles.
Références
- Documentation simplifiée : https://docs.streamlit.io/
- Documentation de l'API YouTube : https://developers.google.com/youtube
- Documentation MongoDB : https://docs.mongodb.com/
- Documentation SQLAlchemy : https://docs.sqlalchemy.org/
- Documentation Python : https://docs.python.org/
- Documentation Matplotlib : https://matplotlib.org/