Ce projet était l'une des exigences de mon module de troisième cycle appelé Statistics Applied. L'objectif principal de ce projet est de générer un modèle précis pour prédire le prix des billets aériens en fonction des fonctionnalités. Les modèles d'apprentissage automatique utilisés dans ce projet sont une régression linéaire simple et une régression linéaire multiple. De plus, une séquence de temps utilisant Auto Arima est réalisée pour prévoir le prix d'une compagnie aérienne particulière au cours de l'année 2023. Le principal flux de processus de ce projet est de réaliser l'analyse exploratoire des données, le prétraitement des données, l'analyse de corrélation, la formation des modèles, l'analyse du temps, l'analyse de temps, et test d'hypothèse en utilisant ADF.
Le projet est codé en langage R à l'aide du R Studio IDE.
Il y a 2 ensembles de données utilisés dans ce projet qui se trouvent dans le dossier "DataSet".
Le code complet peut être affiché dans le fichier "code.r".
Si quelqu'un veut utiliser une partie du code. Veuillez le référencer. Merci.
Les recherches actuelles dans ce domaine impliquent que les prix des billets d'avion peuvent être prédits à l'aide d'un ensemble de certaines fonctionnalités qui peuvent être des entreprises utiles et des touristes pour déduire le prix et quand est le meilleur moment pour acheter un billet de vol. Comme le prix d'un billet de vol fluctue car un prix saisonnier est appliqué de temps à autre, il est difficile d'obtenir une prédiction précise. Ainsi, la question principale est maintenant possible de prédire le prix du billet en fonction des fonctionnalités liées au vol lui-même tel que la durée du vol, le nombre d'arrêts, etc.
Au cours de l'analyse de corrélation, une forte corrélation positive de 0,92 est identifiée entre le prix moyen et les jours restants pour acheter le billet. Ce fut la plus forte de toute corrélation fondée. L'analyse de régression linéaire a découvert que la caractéristique «prix moyen» et «Days_left» pourrait expliquer 62,53% de la variation du «prix moyen». En outre, l'analyse de tisrierie prévoyait qu'en avril 2023, le prix du billet pour Jet Airways est de 12431,34 ₹.
Dans l'ensemble, les résultats de ce projet concluent que les fonctionnalités peuvent être utilisées pour prédire le prix du billet aérien. Néanmoins, davantage de fonctionnalités pourraient être considérées comme la condition météorologique ou l'élargissement de l'ensemble de données avec des variables numériques pour prédire un résultat plus précis.
Le projet couvre tout le processus, du prétraitement des données au développement d'un modèle de régression linéaire. Les résultats trouvés dans ce projet englobent toutes les questions statistiques mentionnées précédemment. Le prétraitement des données a été effectué pour transformer les données en norme appropriée pour le modèle de régression linéaire. Une analyse de corrélation est terminée pour identifier quelles sont les variables qui dépendent fortement les unes des autres qui sont bénéfiques pour l'analyse de régression linéaire. Sur la base de l'analyse de corrélation, le modèle de régression linéaire a été créé pour effectuer une prédiction sur le billet de prix du vol de la compagnie aérienne. De plus, une analyse de semeries est faite pour prévoir le prix du ticket de Jet Airways Airline en 2023 qui est de 12431,34 ₹. Enfin, des tests d'hypothèse utilisant un Dickey Fuller augmenté (ADF) ou un test racine unitaire sont effectués pour identifier si les séquences horaires sont stationnaires ou non.
Dans l'ensemble, les fonctionnalités fournies peuvent déduire le billet de prix de la compagnie aérienne. Cependant, toutes les fonctionnalités ne sont pas utilisées et assez fortes pour atteindre cette tâche. Ainsi, une amélioration future peut être effectuée lorsque davantage de facteurs pourraient être pris en compte, comme la condition météorologique ou l'élargissement davantage de l'ensemble de données avec des variables plus numériques qui peuvent être utilisées pour prédire un résultat plus précis.